Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Совр пробл биол Мод 1Теор мат 2012.doc
Скачиваний:
2235
Добавлен:
26.03.2016
Размер:
7.01 Mб
Скачать

4. Использование методов биоинформатики в секвенировании

Ресеквенирование. Этот процесс можно сравнить с поиском опечаток в  тексте романа, например «Война и мир». Предполагается, что геном изучаемого объекта имеет то же строение, что и «золотой стандарт» генома 2000-го года (хотя и этот эталон постоянно уточняется —доступна уже 37-я его версия). Сопоставляя участки текста, для каждого из многих миллионов «ридов» определяются его координаты на одной из хромосом: «страница», «абзац», «отступ слева» и т. д. В случае если обнаруживается расхождение с эталоном — опечатка, маленькая вставка или выпадение текста (на жаргоне такие отличия называют short indels — short insertions/deletions), — эти вариации включаются в отчёт о сравнении. Так, сравнивая миллионы и миллиарды «ридов» с исходным текстом, можно получить полный перечень отличий изучаемого генома от эталонного «золотого стандарта». Более того, если каждая буква исходного текста проверяется многократными прочтениями, это увеличивает статистическую достоверность найденных генетических особенностей и аномалий. Сегодня считается, что геном ресеквенирован с высоким «покрытием» (deep sequencing), если каждая его буква была прочитана в среднем 30 раз или более (30×).

«Золотой стандарт» (эталон, референс) генома — последовательность ДНК в цифровом виде, составленная учеными как общий репрезентативный пример генетического кода того или иного вида. В случае человеческого генома, это последняя версия сборки GRChg37 (Genome Reference Consortium human genome 37), которая представляет собой гаплоидный геном с перемежающимися локусами (т. е. изначально сведенные в одну последовательность аллельные варианты могли располагаться на разных хромосомах). Суммарная длина расшифрованного генома составляет 3 181 354 029 пар оснований. Референсные геномы человека и мыши поддерживаются и совершенствуются Консорциумом Референсного Генома (Genome Reference Consortium, GRC) — группой менее чем 20 ученых из различных геномных научно-исследовательских институтов.

Внешние отличия, умственные способности и даже психологические особенности каждого человека в той или иной степени заложены в его геноме. Считается, что основные генетические отличия одного человека от другого сосредоточены в однобуквенных заменах — своеобразных «опечатках» или «вариантах» текста ДНК, называемых однонуклеотидными полиморфизмами (ОНП). Как одна буква в названии книги «Война и мир» способна изменить его смысл (к примеру «Война и мор»), так и замены в генетических текстах могут привести к тому, что, например, одни люди будут болеть чаще, чем другие.

Зная генотип человека, теоретически можно предсказать многие его характерные черты, — не только цвет глаз и рост, но и предрасположенность к заболеваниям (именно это больше всего и интересует учёных и врачей) и даже к вредным привычкам! Однако самое сложное здесь то, что большинство таких признаков определяется совокупностью большого, хотя и конечного числа «опечаток» в геноме, которые потребуется обнаружить. Результат появления той или иной «опечатки» не всегда бывает предсказуемым и понятным. Зачастую эффект от замены одной буквы слишком незначителен, и у исследователей нет ясности, как она в принципе может влиять на фенотип. Однако совокупность сотен и тысяч ОНП может эмпирически коррелировать с тем или иным признаком, хотя механизм, обусловливающий связь с признаком, может оставаться загадкой. Для этого необходимы данные о генотипах различных групп людей — как здоровых, так и больных, — чтобы иметь достаточную статистику для анализа отличий в геномах и поиска тех «опечаток», которые ответственны за склонность к заболеванию. Такие исследования получили название GWAS — genome-wide association studies.Например, для проекта по исследованию рака почки генотипировано больше 12 тысяч человек. Таких проектов в мире можно насчитать уже несколько десятков, — то есть, всего насчитывается уже несколько сотен тысяч людей с установленными генотипами. Кстати говоря, уже и число полных геномов перевалило за тысячу.

С точки зрения биоинформатических алгоритмов, ресеквенирование — это относительно лёгкая процедура: для обработки данных от одного запуска прибора требуется всего около 10 часов работы программы на 20 процессорных ядрах и 20 Гб оперативной памяти.

Секвенирование de novo. Вторая задача является и экспериментально, и алгоритмически, и вычислительно более сложной — тут требуется реконструировать текст из набора «ридов», не имея эталона для сборки. Подход основан на том, что, в силу случайности разбиения молекул ДНК на фрагменты, при достаточно плотном «покрытии» обязательно найдутся несколько частично перекрывающихся «ридов», при совмещении которых текст будет постепенно наращиваться. «Подрастающий» текст (в данном случае называемый контигом) используется для поиска среди миллиарда «ридов» такого, который максимально (но не полностью) с ним перекрывается.

Процедура объединения контигов продолжается до тех пор, пока с обоих концов фрагмента генетического текста не начнутся области протяжённых повторов, характерные для «кончиков» хромосом. Если повтор имеет длину большую, чем длина «рида», то его длина, а значит, и точная последовательность, остаётся неизвестной. Однако здесь на помощь приходит информация о парности чтений: как правило, они находятся на более-менее известном расстоянии друг от друга. Таким образом, если одно из чтений пары попадает на один контиг, а второе — на другой, то эти контиги можно объединить в связку, называемую скаффолдом (от англ. scaffold – строительные леса).

Впоследствии непрочитанные «дыры» в скаффолдах можно будет прочесть другими методами. Сборка de novo является алгоритмически сложным и вычислительно затратным процессом. Такие задачи решаются с использованием теории графов, но идеального «сборщика» текстов для de novo-секвенирования ещё не создали. Основной проблемой сборки является наличие в генетических текстах длинных (от 200 до нескольких тысяч букв) элементов, содержащих повторы длиной от 4 до 150 нуклеотидных оснований. Очевидно, что именно из-за присутствия повторов текст во время сборки может оборваться. Для преодоления этого используют экспериментальные ухищрения, заключающиеся в генерации исходной библиотеки фрагментов со средней длиной не 500, а 3000 или даже 10000 букв. В этом случае существенно увеличивается вероятность захватить парой «ридов» уникальные участки текста, оставив повторы внутри.

Интересно, что 37-я версия референс-генома человека имеет в своем составе 329 скаффолдов и 357 пропусков (gaps) с неизвестной последовательностью.

Рисунок 2 - Повторное секвенирование («ресеквенирование») генома с целью выявления разнообразных структурных вариаций (однонуклеотидных полиморфизмов, или «снипов», а также инсерций, делеций, повторов, инверсий, транслокаций). В отличие от секвенирования неизвестных последовательностейde novo, при котором прочтения соотносятся друг с другом и собираются в контиги, для ресеквенирования достаточно просто «картировать» прочтения на референсную последовательность, уже имеющуюся под рукой. Снипы выглядят как однонуклеотидные замены в коротких прочтениях, при этом количество прочтений с заменой говорит о состоянии аллеля — гомозиготном (все прочтения с заменой) или гетерозиготном (половина прочтений с заменой) [4]

Использование компьютеров. «Сборка» текста генома из набора фрагментов, полученных на секвенаторе, — алгоритмически и вычислительно сложная задача, невозможная без использования суперкомпьютерных кластеров. Например, каждая сборка генома печёночного сосальщика, основанная на данных нескольких запусков секвенатора, требует до недели работы кластера из двух десятков узлов по 8 ядер и 8 Гб оперативной памяти в каждом (объединение по интерфейсу MPI). Однако одного запуска почти всегда недостаточно — таких сборок может быть несколько из-за необходимости подбора оптимальных параметров алгоритма и добавления новых экспериментальных данных. Есть и альтернативные варианты решения этой задачи, основанные не только на кластерах, но и популярных сегодня «облачных» вычислениях.

В целом, сборка de novo является более перспективным методом, чем ресеквенирование, и практически единственным подходом — когда эталонной последовательности генома исследуемого организма ещё не существует (как правило, для этого и проводится первое секвенирование). Оно позволяет выявлять существенные перестройки в геноме, обозревая его как одно целое. Впрочем, для многих практических целей и ресеквенирования бывает вполне достаточно.

Ясно, что без серьёзных компьютерных мощностей решить задачу секвенирования генома невозможно. Некоторые исследователи видят решение проблемы доступности дешёвых вычислений в так называемых «персональных суперкомпьютерах», под которыми имеются в виду системы на базе графических процессоров. Действительно, их специализация на операциях с векторами и массивная параллелизация находят всё более широкое применение во многих областях науки. В то же время относительно низкая цена и стоимость и владения такими компьютерами существенно снижают порог вхождения; их могут позволить себе не только институты, но и отдельные лаборатории.

Однако переход на новую технологию обязательно приносит с собой ряд проблем, и в биоинформатике они ощущаются особенно остро. В частности, часто необходимо использовать специальные алгоритмы, требующие от программиста знания архитектуры графических процессоров; в то же время большинство программного обеспечения в биологии разрабатывается биологами, для которых программирование — лишь дополнительный навык. Это же обусловливает и приверженность биологов к скриптовым языкам программирования: часто требуется написать простую программу «на раз» — только для проверки очередной гипотезы. Традиционно используемый в биоинформатике язык Perl на настоящий момент не имеет доступа к OpenCL (программный комплекс для облегчения программирования графических процессоров), хотя некоторые другие языки, например, Python или Java, уже оснащены привязкой к этому фреймворку.

Можно назвать три основных особенности использования графических сопроцессоров в геномной биоинформатике. Во-первых, это текстовый формат геномных данных, в то время как единого стандарта для их представления в удобном (с точки зрения вычислений, компактном и быстром) цифровом виде до сих пор нет. Во-вторых, высокая «квантуемость» данных («ридов» секвенатора, полиморфизмов и др.) способствует многопоточной обработке. И, в-третьих, огромные требования к оперативной памяти, запас которой непосредственно на графическом ускорителе пока относительно мал; это может привести к дополнительному усложнению и без того порой неочевидных алгоритмов.

Требования к аппаратному обеспечению, накладываемые практическими задачами, почти всегда опережают реальные возможности вычислительных машин. Для многих приложений биоинформатики — таких как сборка геномов de novo — часто не хватает ресурсов даже самых современных кластеров, включающих сотни вычислительных узлов, соединенных быстрой сетью Infiniband.

Возможное решение проблемы компьютерных мощностей — глобальная грид-инфраструктура, объединяющая десятки суперкомпьютерных центров и позволяющая использовать их мощности через единый интерфейс. Кроме того, грид-технология позволяет создавать распределённое хранилище данных, — а ведь когда речь идёт о геномике, дискового пространства не бывает много. Последнее время это направление распределённых вычислений очень активно развивается, — например европейский проект EGEE является примером создания крупнейшей грид-инфраструктуры, объединяющей участников из более чем 50 стран и включающей в себя более 260 компьютерных центров. Общее количество вычислительных ядер в этой сети более 150 тысяч, а дисковое пространство превышает 28 петабайт. Возможно, использование грид-технологий сможет отодвинуть границу доступных задач в биоинформатике уже в самом ближайшем будущем.