유전체 연구동향

생명의 비밀이자 코드, DNA. 우리는 얼마나 알고 있을까?

유전체의학연구소l 2024-06-20l 조회수 161



스위스 연구팀이 개발한 DNA를 위한 구글과 같은 도구가 세계 생물학적 서열 데이터를 저렴하고 쉽게 검색할 수 있도록 하는 데 큰 가능성을 보여주고 있다. 연구진은 원칙 증명 연구에서 세계에서 알려진 DNA, RNA 및 단백질 서열의 10%를 성공적으로 색인화했다고 밝혔다. 이와 동일한 방법으로 나머지 서열도 색인화할 수 있다.

지난달 bioRxiv에 게시된 이 연구는 연구진이 최근 개발한 MetaGraph라는 컴퓨팅 도구를 사용하여 웹 페이지와 그 내용을 검색하는 인터넷 검색 엔진처럼 공개적으로 이용 가능한 서열 데이터를 조직하고 압축된 검색 가능한 형식으로 만들었다. 생성된 색인은 다운로드 및 웹 포털을 통해 제공되며, 사용자들은 수조 개의 염기 서열과 수십억 개의 아미노산을 포함하는 서열을 스캔할 수 있다.

메릴랜드 대학의 컴퓨터 생물학자 Rob Patro는 이 연구가 "모든 공개적으로 이용 가능한 서열 데이터를 색인화하는 대도전(grand challenge)을 계속 추구하는 데 있어 엄청난 성과이자 획기적인 업적을 대표한다"고 말했다. Patro와 다른 전문가들은 DNA, RNA 및 단백질 서열 데이터를 저장하는 저장소가 기하급수적으로 증가하고 있기 때문에 이러한 자원이 새로운 바이러스 식별에서 질병 관련 RNA 서열 발견에 이르기까지 다양한 연구 분야에 도움이 될 수 있다고 강조했다. MetaGraph는 이 목표를 달성하려는 유일한 프로젝트는 아니지만, 이 팀은 현재까지 가장 큰 색인을 생성했으며, 이 도구를 사용하는 것이 상대적으로 저렴할 것이라고 계산했다.

현재 생물정보학 도구는 아직 유전체로 조립되지 않은 서열에 대해 전체 데이터를 한 번에 스캔할 수 없다. 연구자들은 검색하기 전에 서열 컬렉션을 좁혀야 한다. 여러 연구 그룹은 더 큰 데이터베이스에서 서열을 더 조직화된 데이터 구조 또는 색인으로 압축하여 다운로드 가능한 파일이나 온라인 포털에서 쉽게 검색할 수 있도록 하는 문제를 해결하려 하고 있다.

2020년, ETH 취리히의 생물정보학자 André Kahles와 컴퓨터 과학자 Gunnar Rätsch 및 동료들은 MetaGraph의 초기 버전을 발표했다. 이 팀은 de Bruijn 그래프라고 불리는 수학적 구조를 사용하여 서열 간의 중복을 나타내는 도구를 사용하여 SRA의 100만 개 이상의 기록, 총 약 3 페타베이스를 색인화했다. MetaGraph는 이미 여러 프로젝트에서 도시의 미생물 구성 식별 등 다양한 용도로 사용되고 있다.

이번에 연구진은 개선된 MetaGraph 버전을 사용하여 미생물, 곰팡이, 식물, 인간 및 인간 장내 미생물군의 서열을 포함하여 SRA 및 기타 데이터베이스에서 5 페타베이스를 색인화했다. 새 논문에 나오는 일부 색인은 수십 테라베이스의 데이터를 약 10 기가바이트로 줄여 개인용 컴퓨터에서도 작업할 수 있을 정도로 작게 만들었다. 초기 색인을 만드는 것은 비싸지만 (SRA 전체의 경우 수십만 달러) 사용자들은 기존 기술보다 훨씬 저렴하게 데이터 세트를 쿼리할 수 있다.

노팅엄 트렌트 대학의 생물정보학자이자 미생물학자인 Lesley Hoyles는 이 연구가 "매우 흥미진진하다"고 말했다. 데이터 저장소가 크기를 계속 증가시키고 있기 때문에 "컴퓨터 저장 및 에너지 비용을 줄일 수 있는 모든 것은 전 세계 연구자들에게 큰 장점이다." 이러한 접근법은 중저소득 국가의 과학자들이 유전체 연구에 접근하는 장벽을 낮출 수 있다. "저렴한 노트북으로도 쉽게 작업할 수 있다"고 그녀는 덧붙였다.

다른 그룹들도 진전을 이루고 있다. 지난해 파스퇴르 연구소는 SRA의 모든 데이터를 색인화하기 위해 유럽 연구 위원회로부터 200만 유로를 받아 IndexThePlanet 프로젝트를 시작했다. NCBI의 연구원들은 Pebblescout이라는 자체 색인화 도구를 개발 중이다. "현재 이 분야는 매우 활발히 연구되고 있다"고 Bath 대학의 컴퓨터 생물학자 Zamin Iqbal은 말했다. 그는 세균 서열 데이터를 모아 더 쉽게 검색할 수 있도록 하는 AllTheBacteria 프로젝트에 참여했다.

Patro는 MetaGraph의 색인 크기 때문에 샘플에서 수백만 개의 서열을 동시에 검색하는 등 특히 큰 작업에서는 다른 도구보다 느릴 수 있다고 제안했다. 또한 새로운 서열 데이터를 사용하여 색인을 업데이트하는 최적의 방법도 아직 명확하지 않다고 덧붙였다. 프로젝트의 자금 조달 문제와 이와 관련된 모든 컴퓨팅 비용 문제도 있다. 도구가 널리 채택될지는 "이러한 상당한 자원을 어떻게 호스팅, 업데이트 및 유지 관리할 것인지에 대한 사회적 및 행정적 질문을 해결하는 것"에 달려 있다고 그는 말했다. 이는 "개별 연구 그룹에 이러한 막대한 과업을 기대하는 것은 비현실적(그리고 불공평)이다"고 덧붙였다.

Kahles와 Rätsch도 이에 동의하며, 이 작업이 다른 그룹 및 NCBI나 SRA와 같은 대규모 조직이 프로젝트를 이어 받아 연구자들이 사용할 수 있도록 나머지 90%의 서열 데이터를 색인화하도록 영감을 주기를 바라고 있다고 말했다. "우리는 그들에게 여기서 보여줍니다: '이것은 가능합니다. 부디 해주세요.'"라고 Rätsch는 말했다.

더 자세한 내용은 https://www.science.org/content/article/google-dna-indexes-10-world-s-known-sequence-data