Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по геномике.doc
Скачиваний:
20
Добавлен:
13.09.2019
Размер:
1.19 Mб
Скачать

Как идет сиквенс.

Пиросеквенирование еще не получило широкого распространения. Один прибор стоит от 1,5 млн до млн. $, а один прогон – порядка 80 000 $. Ранней весной 2008 года вышла новая методика секвенирования, совсем другой принцип секвенирования: последовательности этой машины меньше, чем выдает пиросеквенатор. А именно – 26 нуклеотидов. Зато дает огромное количество вот этих последовательностей. Получается гораздо дешевле. Стоимость прибора – 150 000$, а один прогон – 400$. Это второе поколение секвенаторов. Классический подход: по Сэнгеру. Чтобы получить нормальный сиквенс, нужно уделять внимание оптимизации условий. На качкство сиквенса влияет целый ряд факторов. Ключевой – качество матрицы ДНК, его чистота. Остальные компоненты покупаются. Буфер, праймеры, полимераза, нуклеотиды, дидезокситерминаторы. Что-то в реакции должно быть мечено: либо праймеры, либо нуклеотиды. Матрица классически – это плазмидная ДНК, т.к. секвенирование делается в основном на плазмидах. Другие матрицы - фаги и их производные. На самом деле лучшая матрица для секвенирования – геном (одноцепочечная ДНК) нитевидных фагов типа М13. На заре секвенирования, когда много внимания уделялось длине прочитанной последовательности, использовались почти только молекулы на основе одноцепочечных фагов. Точней даже это были фазмиды. Сейчас используются с другими целями. Фазмида какая-то sd4bluescript – это одна из таких. Кроме бактериальной точки репликации несет и фаговую. При необходимости можно получить ДНК этой фазмиды в одноцепочечной форме, но сейчас без надобности. Для этого нужно заразить клетку, несущую этот фаг, хелперным фагом. Процедура «неприятная». Используются на стадии финиширования сиквенирования, когда надо закрыть небольшой пробел. ПЦР-продукты – нормальные матрицы для сиквенирования. Все прокатывает даже у студентов  Два варианта праймеров для сиквенирования: 1) классика – отжиг праймера к последовательности вектора. Стандартный универсальный праймер, подходящий для всех клонов. Это дешевле. На стадии финиширования целесообразно использовать специфические праймеры к конкретной последовательности. Заказывают внутренние праймеры для неотсиквенированного участка. Получается что-то вроде прогулки по хромосоме. Делается сиквенс концов, а потом заказываются праймеры для концевого участка сиквенса. И т.д.. Такой подход оправдан только на стадии завершения. Критичный компонент ПЦР – ДНК-полимераза. Прогресс в качестве сиквенса заключается в модификации полимеразы. Еще Сэнгер использовал первый инструмент – фрагмент ДНК-полимеразы1, фрагмент Кленова. Надежный, но не очень высокая процессивность (постоянно сваливается с матрицы после пары десятков нуклеотидов). Ничего хорошего. На основе полимеразы фага Т7 был сделан более надежный инструмент: в результате нескольких нуклеотидных замен были инактивированы экзонуклеазные активности, фермент получил название сиквеназа. Уже этот фермент работал нормально, более 1000 нукл. пар. У полимераз 2 экзо- и 1 эндонуклеазная активность. 3прим-5прим экзо будет заменять дидезоксинуклеотиды. Экзонуклеазная активность в другом направлении будет подъедать праймеры с 5прим-конца и, возможно, подрезать продукты сиквенирования. Значит, размер этих продуктов будет варьировать. Тогда сиквенс не удастся. Т.к. при координации фрагментов в одной фиксированной точке к них будут немножко разные начала, и в результате четкой полоски при проведении фореза не получить. Эта первичная модификация – требования к базовой сиквеназе. Должна быть процессивной, тогда она будет нечувствительна к элементам вторичной структуры. Еще не должна иметь экзонуклеазных активностей. Была и другая трудность: некоторые области ДНК имеют весьма устойчивую вторичную структуру и могут не прочитаться даже модифицированным ферментом. Самое простое решение этой проблемы – использование термостабильных фрагментов. Реакция проводится при более высокой температуре, и вторичная структура денатурирует. Сейчас юольшинство используемых ферментов делается на основе Taq-полимеразы или чего-нибудь очень похожего. Названия у нее разные. Много модифицированной Taq-полимеразы выпускается. Еще сикввеназа модифицируется с целью повышения сродства к терминаторным нуклеотидам. Преимущество термостабильных полимераз – реакцию можно гнать циклически. Даже линейная циклическая реакция позволяет прогнать ее несколько раз. В результате раз в 30 больше продукта на одном и том же количестве матрицы.

Конкретные методики сиквенирования различаются по целому ряду параметров. По типу реакции: циклическая и изотермическая. Фрагмент Кленова и стандартная сиквеназа – изотермическое сиквенирование, а циклическое – термически стабильная, почти всегда предпочтительней. По способу включения метки: 1) праймеры, меченные терминатором, ? самое первое – это включение метки в начале реакции. Стандартная методика с сиквеназой включала добавление радиоактивно меченного аденозинтрифосфата в начале реакции, первая фаза реакции, 5 минут при комнатной температуре, шла с бедной нуклеотидной смесью и без терминаторов. Добавлялся меченный нуклеотид. Сиквеназа добавляла пару десятков нуклеотидов, включая меченный, причем неоднократно. Чем больше меченных нуклеотидов было в цепи, тем сильней был сигнал. Потом добавлялись уже терминальные смеси при оптимальной температуре, при 37 градусах. Меченные праймеры - самый дешевый вариант. Один набор надооолго. Собрать смесь можно при наличии рагентов самостоятельно специально для опыта. Качество сиквенса при этом варьирует. Преимущества меченных терминаторов (они дороже): мечены только те продукты, в которых реакция прошла до конца, и если терминация прошла преждевременно, то такой продукт будет немеченным. И его невозможно будет зафиксировать. Т.е. сиквенс получается более высокого качества. Каждый из терминирующих нуклеотидов можно пометить своей собственной флюоресцентной меткой. Тогда можно все 4 реакции проводить в одной пробирке, детектируя место терминации при помощи специальной оптики: лазер с разной длиной волны возбуждения, флюорофор с разной длиной испускания света и соответственный сиквенатор. Сейчас используются сиквенаторы производства BlySistems, они как раз для таких штук. Метки радиоактивные и флуоресцентные. Сейчас – почти всегда флуоресцентные. Автоматизация при этом легче. Сейчас сиквенаторы автоматические.

СЛАЙД картинка сиквенса. На выходе имеем хроматограмму (электрофорез – как вариант хроматограммы), где каждый пик соответствует прохожлению определенного фрагмента мимо детекторов. Сбоку это все облучается лазером, и регистрируется пик. Пики– с разных детекторов. На этом же слайде: проблемы ближе к 1000 нуклеотидов. ограничение – 600-700 нуклеотидов.

Лекция 5.

Шотган подход, преимущества:

Действительно просто (думать не надо) порезал ДНК, засунул в секвенатор и уже на выходе готов сиквенс, затем при помощи компьютера эти кусочки собираются. В связи с тем, что это всё автоматизировано, получается быстро, а так как затраты ручного труда малы, это получается ещё и дешево. Используется активно.

Недостаток – качество неважное. Проблемы :

Особая сложность при попытки секвенир эукариот, очень много повторов – минисаттелиты, транспозонные последовательности. Если используется шотган подход, те случайное секвенирование, а потом автоматическая сборка полученных фрагментов ДНК легко получить совершенно неправильную сборку последовательности

Есть два типа повторов которые создают проблемы

Сначала тандемный повтор (таких повторов очень много) минисаттелиты , многие локусы генов (гемоглобиновые гены человека) кластер генов, которые друг за другом повторяются Если повторы идентичны автоматическая сборка без учета дополнительных факторов всегда оставит только один из тандемных повторов, тк сиквенс-то идентичный . Если четко получается накрывается место стыковки, то тогда поскольку будет видно, что конец одного повтора переходит в начало следующего, то останется два повтора, но а если их было десять, то всё равно останется два. Так как автоматически, если посмотреть как можно состыковать эти фрагменты, то всё равно всё количество фрагментов сводится к двум.

Если повторы не тандемные, а разбросанные по геному. Если расстояние между ними невелико очень велика вероятность того, что в каком-то месте сиквенса не будет, эти кусочки между собой не будут стыковаться, а если между ними есть ещё какой-то пробел, то при автоматической сборке в последовательности вместо двух повторов будет один а фрагмент будет отсутствовать в геноме, это гораздо более существенная ошибка с точки зрения информации, которую мы теряем. В первом случае мы теряем только число повторов, но по крайней мере знаем, что они есть и в идеале можем знать, что их там несколько. Во втором же случае остаётся только один фрагмент и будет утрачен кусок нуклеотидной последовательности между ними, это очень серьёзная ошибка, которая связана с шотган-подходом. Вентеровские сиквенсы первоначально содержали много таких неточностей. Чтобы предотвратить такие ошибки в данном случае помогает только повторная физическая карта генома, так как по маркерам будет видно, какой размер участка с повторами, даже если вы точно до нуклеотида не определите, то по крайней мере будете приблизительно знать, сколько там таких повторов в соответствующем участке ДНК может поместиться, если было проведено точное картирование, то вплоть до нуклеотида можно определить. Вы знаете, что повторы здесь, знаете расстояние между ними, если ката подробная, то просто посчитать сколько там повторов, чтобы получить точную информацию.

Решение второй проблемы : для того, чтобы повысить гарантия того, что мы не утратим уникальную последовательность, нужно иметь клонотеку, в которой размер вставки вектора будет превышать максимальный размер повтора, как правило это несложно, потому что обычно повторы имеют размер до десяти тысяч нуклеотидных пар, то есть делается библиотека клонов размеров от десяти до двенадцати тысяч пар и нормально получается. Тогда, когда такая библиотека есть делается секвенирование концов таких среднего размера вставок и внимательно смотрится, куда попадают концы повторов.

Например у нас есть один конец вставки попадает в уникальную последовательность, а другого конца вставки нету, то есть это такой случай, когда у нас было два повтора, и утратилась уникальная последовательность между ними, если она утрачена, то один из концов «повиснет в воздухе». При нормальной сборке оба фрагмента сиквенса будут присутствовать в геноме, при неправильной сборке один из концов будет отсутствовать.

Или другой вариант, если вы точно знаете если один конец попадает в геномный повтор, то второй конец с высокой долей вероятности должен попадать в уникальную последовательность и это помогает точно привязать. Каждый из этих повторов они в принципе одинаковы, библиотека позволяет точно закрепить повтор в нужном месте нуклеотидной последовательности. Если допустим у вас есть сиквенс, один конец которого в повтор попадает, другой тоже где-то болтается, то значит произошла неправильная сборка, ошибка при стыковке фрагментов между собой.

В связи с тем, что возникают такого рода сложности стандартной простой бактериальный шотган-подход был модифицирован и главная модификация состоит в том, что должно быть как минимум две библиотеки в векторах раличного типа. Размер вставкидолжен превышать размер повтора, потом выяснилось, что на самом деле нужно иметь три библиотеки - один в pUC, второй со вставками в низкокопийном векторе, чтоб не было проблем с токсичностью, и вставки 10-12, максимум 14 тысяч нуклеотидов, третьи BAC (bacterial artiphicial chromosomes). То есть мы имеем три типа библиотек – в pUC, средний размер вставки и крупный размер вставки. То есть библиотеки используются не только для картирования, для получения перекрывающихся клонов, концы BAC тоже всегда секвенируются, это непростая процедура, так как очень сложно выделить ДНК бактериальный искусственных хромосом, она не очень хорошего качества, следовательно и сиквенс получается не очень точный, но всё же секвенируются концы и эта информация также даёт «дальнобойную привязку» коротеньких фрагментов к друг другу. Всегда на выходе шотган-подхода получаются какие-то фрагменты сиквенс BAC позволяет их расположить правильно, выяснить, что за чем идёт, можно досеквенировать, то есть это очень важная информация, которая всегда используется.

Как в целом происходит сборка фрагментов сиквенса? Есть несколько подходов, самый простой из них это так называемая прогулка по хромосоме. Это экспериментальный подход может реализовываться по-разному. Можно при помощи гибридизации, можно при помощи ПЦР. Суть сводится к тому, чтобы находить какие-то фрагменты ДНК, которые между различными клонами являются общими, таким путём можно накрыть пробел, и фрагмент уже известного сиквенса расположить упорядоченно. Два момента, в которых возникает проблема стыковки различных фрагментов. В целом и сборка фрагментов сиквенса и во-вторых ещё и поиск недостающих фрагментов, когда нужно оставшиеся проблемы в геноме закрывать, как правило в современных геномных проектах эта стадия встаёт уже на стадии финиширования, то есть когда нужно пробелы закрыть, действительно таким образом чаще всего отбираются недостающие клоны из библиотеки, то есть стыкуются уже секвенированные кусочки друг с другом. Помимо ПЦР есть ещё достаточно удобный подход, который в частности использовался в проекте «Геном человека», когда вместо ПЦР делалась очень подробная и качественная рестрикционная паспортизация клонов. Что это такое? Стандартные BAC-клоны резались обычными рестриктазами (в геноме человека основная рестриктаза – Hind III) фрагментов на 20-30, если прогнать очень хороший качественный агарозный гель-электрофорез , были потрачены некоторые усилия на оптимизацию этой методики, получается очень чёткая картинка полос , можно определить их молекулярную массу достаточно хорошо , каждый клон BAC-библиотеки человеческого генома имел такой паспорт, кроме Hind III использовалась ещё одна рестриктаза , и поскольку качество этой рестрикции было достаточно высоким, просто сравнивая различные BAC-клоны между собой, можно было отобрать такие клоны, в которых есть общие фрагменты . Достаточно простая ситуация, если есть несколько общих фрагментов, то с очень высокой степенью вероятности, можно говорить о том, что соответствующие BAC имеют перекрывающиеся фрагменты . Помимо ПЦР , которая действительно однозначный ответ даёт, можно использвать ещё и простую рестрикцию . ПЦР удобна тем, что небольшая модификация позволяет упростить поиск нужного клона. На слайде схема комбинаторного скрининга , суть в том, что ПЦР-методика чувствительная и если у вас какая-то смесь матриц, но нужная матрица есть, вы всё равно получите сигнал. Вместо того, чтобы гнать ПЦР с каждым из подозреваемых BAC-клонов, которые нужно проверить на наличие исходного фрагмента , можно смешивать в одной пробирке несколько матриц и если делать это в планшетном варианте, можно задать роботу программу , он сам смешает матрицы , если идёт выделение ДНК в планшетном формате можно тому же роботу дать задание смешивать матрицы в произвольном порядке, суть сводится к тому, что берём в планшетке смешиваем все образцы одного ряда у нас получается в результате 8 пробирок со смесью матриц, в каждой из которых 12 матриц, и вертикальные ряды тоже , здесь получается по 8 матриц , получаем 20 смесей матриц и вместо 96 уникальных ПЦР мы прогоняем всего лишь 20 , в пять раз уменьшается количество ПЦР. Если задачей является просто найти один единственный нужный клон, если он найден, то потом просто погоняютя индивидуальный ПЦР с матрицами, которые находились в той пробирке, где был обнаружен сигнал. Таким образом экономится время, количество ПЦР, которые нужно провести, то есть максимум ПЦр, которые нужно будет прогнать это 20 и 12. На ещё одном слайдк показан более сложный вариант, когда берётся стопка планшеток и смешиваются образцы ещё и вертикальном направление, то есть ячейка А1 берётся из каждой планшетки, то есть если 10 планшеток, получается 20 таких образцов. 8 таких и 96 таких .

Ещё один вариант поиска это фингерпринтинг , это паспортизация . Если есть два перекрывающихся участка ДНК, то понятно, что сайт для рестриктазы и в перекрывающуюся область и в результате будем иметь как минимум несколько одинаковых фрагментов, то есть если качественный электрофорез, то возможно чётко сказать, что соответствующие библиотечные клоны перекрываются. Помимо вот этого существуют СТС-картирование, то есть стандартный поиск СТС-локусов позволяет вам идентифицировать библиотечные клоны, в которых один и тот же СТС-маркер есть, что свидетельствует о том, что эти клоны перекрываются. Можно схожие процедуры делать при помощи гибридизации , то есть делается какой-то зонд , как правило просто режется плазмидная ДНК, где клонирован какой-то фрагмент, фрагмент метится киназой , радиактивным нуклеотидом и затем он гибридизуется с различными препаратами тех же BAC, то есть если есть сигнал, значит общий фрагмент присутствует.

Ещё один интересный подход – ПЦР с праймерами, которые сделаны под геномные повторы , причём если правильно выбрать повтор, если известно, какие повторы в геноме присутствуют. Например для человеческого генома очень удобно использовать Alu-последовательности. Их в геноме очень много, что фактически Alu-элемент встречается каждые 3-4 тысячи нуклеотидов, это как раз тот размер, который нормально накрывается при помощи ПЦР, это в среднем, понятно, что они расположены, то гуще, то реже , то есть есть вероятность получить больше фрагмент, есть вероятность получить фрагмент и меньше, первоначально такая методика даже называлась Alu-ПЦР, потом её стали использовать для других геномов, там другие повторы, соответственно переименовали – в ПЦР с повторяющейся ДНК. К Alu-элементу можно сделать два полезных праймера, то есть праймер, который будет читать из Alu-элемента в одну сторону и в другую. В результате получается три возможных ПЦР, вы берёте праймер к одному концу Alu-элемента будет читать в одном направлении, рядом Alu-элемент расположен в другом направлении, то есть с тем же самым праймер получем ещё один продукт, если элементы направлены одинаково, то и ПЦР продукта в данном месте не будет. Если одинаковая ориентация Alu-повторов вам нужен один праймер к одному концу, другой праймер к другому кону повторов тогда получится соответственный фрагмент. В результате можно прогнать три ПЦР – с левым праймером, с правым праймером и с двумя праймерами. Каждый из этих ПЦР даст вам уникальную картинку, три варианта фингерпринтинга, есть смысл гнать три, когда получаются малые фрагменты, вот для генома человека от 15 до 20 ПЦР-фрагментов – хорошее количество, для того, чтобы иметь паспорт клона . Столь же эффективная паспортизация как и при рестрикции, хотя рестрикция немножко проще. Однако это разные сведения и они могут друг друга дополнять и на разных геномах используются различные подходы.

Эти методики позволяют находить перекрывающиеся клоны. То же самое можно делать и на компьютере, когда у вас уже есть сиквенс этих перекрывающихся клонов. Компьютерная сборка сложна математической составляющей, так как секвенатор не выдаёт стопроцентной гарантии, что в конкретной позиции находится конкретной основание, это всегда вероятность. Это связано с самой реакцией потом с электрофорезом, все ошибки. В кадой точке лишь с определённой долей вероятности можно говорить о том, что тамнаходится именно этот нуклеотид, чем дальше сиквенс от начала тем вероятности сближаются , хотя даже в самом начале сигнал, соответсвующий другим нуклеотидам всё равно присутствует. Это всё вероятностный процесс, при желании иметь сиквенс хорошего качества , нужно учитывать вероятностные оценки, которые сопровождают каждую хроматограмму . Одна из этих программ обрабатывает хроматограмму и присваивает каждой позиции статистическую оценку , а вторая программа стыкует эти фрагменты между собой с учётом этих статистических оценок. Суть сборки сводится к стыковке различного числа фрагментов с различным числом повторов. На слайде пример сборки харпинового кластера – каждая линия – отдельный сиквенс, они получаеются разного качества, разной длины . Хороший получается длиной 600 нуклеотидов , но бывают и короче – 400 , бывают и более длинный – практически тысяча. Самая длинная линия – сиквенс гена hrpJ . когда есть уже какая-то известная последовательность , она очень помогает когда начинается секвенирование слева и справа . Если нужно секвенировать участок другого клона или штамма всегда удобно опираться на уже имеющийся сиквенс. Лаборатории с Эрвинией очень помогает сиквенс шотладского штамма , который имеет 87-88 % гоимологии , это достаточно, так как поскольку гены расположены также, позволяет стыковать сиквенсы с опорой на шотландские данные . Такая ситуация применяется для многих бактериальных геномов, так как почти всегда есть какой-то геном с опорой на который можно получить свой сиквенс, это существенно упрощает новое секвенирование, так как первоначальное секвенирование всегда гораздо сложнее , более трудоёмкое, чем ресеквенирование той же самой Днк, которая лишь отличается незначительно , проблема с такой стыковкой иллюстрируется нас слайде , поскольку фрагменты отбираются случайным образом , то в некоторых местах будет многократное перекрытие . Считается нормой для шотга-проектов бактериальных где –то 6-8 кратное перекрытие , эукариотического – 8-10 кратное. Но это в среднем по геному, то есть в одним местах будет больше, в других местах в плоть до того, что может быть только один сиквенс. А шотган, который не прошёл стадию финиширования, во многих местах будет содержать разрывы. И всё равно как ни старайся определённая доля ошибок есть, она будет различной, причём максимальной она будет в случае когда минимум перекрытия.

Стадия финиширования.

Финиширование после шотгана . Благодаря Крэйгу Вентеру в базах данных приводится огромной количество черновиков геномных последовательностей. В отсутствие средств или времени и при желании скорейшей публикации результатов в базу данных сдаётся незаконченная последовательность, которая представлена определёнными фрагментами ДНК, которые в литературе называются контиги от слова contigious непрерывный, это жаргонное слово, но оно уже прочно укоренилось в литературе как термин . Это реальный фрагмент геномной последовательности который состыкован из коротеньких кусочков полученных после секвенирования. Контиги не привязаны к физической карте, известно где в геноме располагается соответствующий фрагмент. Но если шотган не прошёл стадию картирования то это даже не известно. Пробелы между различными контигами могут быть двух типов - это может быть пробел секвенирования, когда сиквенс просто не завершен и соответствующий фрагмент в геномной библиотеке есть и между соседними контигами, допустим известно, что на одном и том же BAC располагаются эти контиги нужно просто взять и досеквенировать.

Но есть ещё и другие пробелы физические пробелы, когда нет соответствующего клона в библиотеке, то есть когда соответствующий участок ДНК даже не представлен в библиотеке, то есть даже нет с чего секвенировать. С подачи Вентера был введён такой термин как scaffold, при переводе на русский язык это звучит как остов или скелет, каркас

Это контиги, разделённые пробелами секвенирования . При секвенировании Drozofila melanogaster даже в статье, которая в Science вышла там идёт разговор не о законченном сиквенсе , а о нескольких scaffold. Вентер не стал доделывать работу до конца, какой шотган получился , что собралось на компьютере, то и было опубликовано, большой беды с этим на самом деле нету , сейчас когда уже есть сиквенсу представителей всех групп организмов , есть два подхода к секвенированию других организмов из этих групп. Например человек и шимпанзе – можно пытаться получить такого же качества, геном шимпанзе , как и геном человека . Проблема в том, что получить сиквенс на уровне scaffold, разделённые ещё физическими пробелами стоит практически столько же, сколько 90-95(98) % генома такой сиквенс накрывать может, для генома млекопитающих эта цифра порядка 90 % , т. е. Получается 90 % генома в таком качестве , это даёт информацию о том, какие вообще гены есть в организме, можно сравнивать с геномом закоченного проекта посмотреть, какие есть полиморфизмы, есть ли соответствующие гены на том же месте или отсутствуют, то есть основную информацию о геноме можно получить уже с такого сиквенса , чтобы закончить его, закрыть пробелы секвенирования , закрыть физические пробелы , состыковать фрагменты между собой , нужно во-первых вложить столько же денег, сколько на получение scaffold , а физические пробелы как правило не закрываются в принципе полностью. Чтобы догнать процесс закрытия генома от 95 до 98 % нужно затратить столько же денег, сколько было затрачено на получение 95% , чтобы догнать ещё один процент – ещё столько же , затем на закрытие ещё одного процента тратится ещё столько же денег, то есть смысла нет никакого экономического. Сейчас когда секвенирующие центры присутствуют, они работают на полную катушку очень много геномов доводятся просто до такой стадии – геном шимпанзе , хотя его скорее всего досеквенируют до конца . Первоначальное финансирование было выбито под такое секвенирование с целью получения scaffold, когда уже есть качественный геном человека. То есть геномы многих беспозвоночных животных , геном асцидий был сделан довольно арно, чтобы посмотреть , какая разница между геномом хордового , но беспозвоночного , к чему он оказывается ближе к беспозвоночным или всё-таки к позвоночным. На этот вопрос можно ответь сразу, располагаю сиквенсом такого качества.

Финиширование генома.

Ликвидация пробелов секвенирования , то есть если мы знаем, что есть соответствующий клон , на котором эти контиги расположены , то есть вопрос стоит в том, чтобы просто прочитать отсутствующие клоны, он отсутствуют скорее всего потому, что в библиотеке, которая на pUC сделана нету соответствующего клона, он либо токсичен, либо просто выпал. Есть два подхода к закрытию такого пробела – первый :

Заказывается уникальный праймер к этим контигам и прямо используя матрицу клона можно сразу делать сиквенс, если это BAC то целесообразно сразу прогнать ПЦР и потом секвенировать продукт, сиквенс получится более хорошего качества. Когда получаетс 500-600 нуклеотидов с концов, то можно заказать следующий праймер или два прймера с двух сторон , то есть реализуется метод прогулка про хромосоме, таким образом можно закрыть недостающий фрагмент , хотя он обычно используется потом, после того, как не получается другими методами закрыть этот пробел. Альтернативный подход – просто сделать другую библиотеку , её всё равно приходится делать, чтобы ликвидировать физические пробелы. Делается новая библиотека идёт либо гибридизация с фрагментами концов контигов , либо ПЦР , что сейчас используется всё чаще и чаще , фактически конец контигов служит как STS-маркер , делается два прймерв к двум концам, также новая библиотека скринируется с попыткой найти клон, который в идеале будет давать сигнал с двумя этими концами, но а если так не получается, то хотя бы с одним из этих концов , тогда нужно разбираться не попадает ли сам клон полностью в уже известный фрагмент, если не попадает, то недостающий фрагмент секвенируется , в идеале конечно лучше, чтобы накрылся полностью пробел , однако это не всегда возможно . То есть на стадии финиширования используется комбинация новых библиотек со скринингом и ПЦР, в тех случаях, когда она позволяет решить проблему, или секвенирование непосредственно с геномного клона.

Пример геномного проекта. 1.8 млн н. п. с 1994 года подходы принципиально не изменились, немного поменялись векторы , секвеназы другие используются, оборудование другое, а суть такого шотган-подхода к секвенированию не изменилась. Сейчас все бактериальные геномы секвенируются исключительно таким образом.

Что же сделал Вентер? Сначала библиотека в pUC, фрагментация ультразвуком, фрагменты фракционировались, выделялись фрагменты размеров 1,6- 2 н.п. , это в pUC18 клонировалось , была получена библиотека с достаточно большим количеством клонов , затем секвенирующие реакции делались с двух сторон, в некоторых случаях одако делалась только одна реакция , из 20 000 клонов прогнано 30 000 реакций , поскольку это были только первые эксперименты подобного рода Вентер старался работать только с качественными сиквенсами, поэтому эти сиквенсы, которые менее 400 н.п имели , были отбракованы , это около 16% клонов . Достаточно интересная проблема возникла, которой никто не ожидал , часто вроде бы нормальных качественных сиквенсов , которые были получены она никак не ложилась в геном, то есть сиквенс хороший , но два конца, т к сиквенс с двух концов, как-то не стыкуются друг с другом, вроде один сиквенс ложится в один конец генома, другой в другой, когда стали разбираться, оказалось, что на том секвенаторе , который позволял гнать сразу 96 реакций на геле , в результате получалось, что если какая-то дорожка выпадает, то не сигнала на этом геле , сканер, который это всё сканирует , велика вероятность, что он ошибётся , пустую дорожку пропустит, а следующую будет считать вместо предыдущей. Причём тут ещё и особенность самого электрофореза, если в соседней дорожке материала нет, то рядом искривляется ход реакции , получается, что сиквенс не соответствует номеру клонов , около четверти всех сиквенсов пришлось выкинуть, а выяснилось это уже тогда, когда шла сборка геномной последовательности. Переход к капиллярным секвенаторам связан именно с этой проблемой, так как там невозможно перепутать, где какая дорожка. Было получено около 24 000 последовательностей,.общая длина последовательности 11 млн н п , получается шестикратное перекрытие. Специально написанная компьютерная программа дала 140 контиг , т е 140 пробелов осталось после автоматической сборки последовательностей.

Та библиотека, которой расплагали была дополнительно проскринирована с целью найти клоны, который будут перекрывать пробелы , таким образом 99 пробелов было ликвидировано. Для закрытия ещё 42 пробелов была сделана новая библиотека с использованием бактериофага лямбда , так как фаговые библиотеки приходят на помощь, когда нужно клонировать то, что может быть токсично и использованием отобранных фаговых клонов была закрыта ещё часть пробелов , оставшиеся фрагменты были закрыты уже с помощью ПЦР.

Однако геномный проект на этом не заканчивается, наступает самое важное , самое биологически значимое – фаза аннотации. То есть статья должна содержать анализ генома. Сколько генов есть , сколько различных повторов , что эти гены могут кодировать , каким образом они могут регулироваться. Два подхода к поиску функции гена – можно делать это экспериментально, можно делать на компьютере , однако компьютерный анализ всё равно опирается на имеющуюся экспериментальную информацию.

Аннотация генома.

Несколько задач: первое - найти кодирующие последовательности, второе – идентифицировать регуляторные последовательности . Так как мало найти гены, нужно попытаться представить, как они могут регулироваться – промоторные, операторные, энхансерные последовательности. Самое сложное – идентификация функции гена. Наиболее экономически целесообразно использовать компьютерные подходы везде, где это возможно.

Поиск кодирующей последовательности. Эта проблема имеет разную актуальность у прокариот и эукариот , для прокариот – это не проблема, для эукариот – колоссальная проблема. Необходимо найти стартовый кодон , однако если подвинуть на один нуклеотид, потом ещё на один, можно найти ещё рамки считывания , то есть каждая последовательность ДНК несёт шесть рамок считывания, из которых только одна реально является кодирующей, у прокариот выяснить это просто – графически рисуем все рамки, которые есть . На слайде верхние три рамки в одну сторону, нижние три в другую , сама длинная рамка считывания – и есть нужная. Для прокариот принцип поиска кодирующих последовательностей – самый простой , рисуем рамки , берём набор самых длинных рамок, не перекрывающихся с друг другом , это и будет с вероятностью 90-95% ген этого организма. Это связано с двумя фактами – во-первых, 90% ДНК у прокариот кодирующая, и кодирующие последовательности непрерывны.

Для эукариот существенно осложняется задача тем, что процент кодирующей ДНК гораздо ниже , кодирующая ДНК разбросана по геному как попало , так как экзоны разорваны интронами . Однако для растений поиск кодирующих последовательностей это меньшая проблема , так как у них гены компактные , интроны относительно короткие обычно не более пары сотен нуклеотидных пар, у человека размер интрона неограничен, может быть и сто тысяч н.п. Для генов позвоночных животных верхней границы для интрона нет в связи с тем, как работает аппарат сплайсинга , он достаточно надежно находит границы экзонов, даже если они на больших расстояниях друг от друга. Не было бы проблемы, если бы можно было легко определить кодирующую последовательность, однако подход применяемый в случае прокариот не подходит, так как возможные рамки считывания могут быть очень короткими , по техническим причинам велика вероятность, что такие рамки будут найдены в некодирующих областях. Стандарный размер экзона у позвоночных животных не превышает 120-150 н.п , то есть фрагмент кодирующей последовательности , то сеть эта цифра в два раза меньше того, что случайным образом находит компьютер. К счастью, кодирующая последовательность отличается по нуклеотидному составу от некодирующей последовательности , основная причина, по которой такое отличие есть, заключается в том, что каждый организм несёт определенный набор тРНК, есть три варианта амк, кодирующихся шестью кодонами, достаточно много тех амк, кодирующихся четырьмя кодонами , некторые тремя, двумя и только триптофан и метионин кодируются одни кодоном, а каждому из этих кодонов соответствует своя тРНК , генов тРНК у высших организмов много - от сотни до тысячи, то есть каждому из этих кодонов будет соответствовать разное количество тРНК и эффективность трансляции будет зависеть от того, с какой вероятностью тРНК попадает в сайт рибосом, если соответствующему кодону много соответствующих тРНК , то рибосомы быстро включат аминокислоту и двинуться дальше , если одна или две молекулы, то синтез белка будет идти значительно медленнее , то есть у каждого организма есть предпочтительные кодоны и есть нежелательные кодоны , в соответствии с тем, сколько тРНК соответствует каждому из них , те гены, которые экспрессируются интенсивно с течением времени ген будет приближаться к оптимальному для организма , то есть интенсивно экспрессирующиеся гены используют практически только оптимальные кодоны , но даже для слабо экспрессирующихся генов всё равно кодонный спектр будет приближаться к оптимальному спектру для этого организма . Помогает учёт сайта сплайсинга, но к сожалению здесь нет особой консервативности , абсолютно консервативны только два нуклеотида по концам интронов АГ и ГУ , есть также некотрая консервативность соседних нуклеотидов , но она недостаточна и есть ещё относительная консервативность участка вокруг точки ветвления 9адениловый остаток и пиримидиновый тракт) , эту информацию тоже можно использовать, но она тоже ненадёжная и её недостаточно для того, чтобы находить границы интронов . Есть другие факторы, которые также могут использоваться для поиска кодирующей последовательности -характерные промоторные элементы , ТАТА-бокс , однако она встречается и спонтанно с достаточно высокой частотой , для млекопитающих SPG-острова , они присутствуют не везде, но практически везде где есть такой островок – практически всегда это промоторная область гена. Большую помощь оказывает использование гомологии с уже известными кодирующими последовательностями , кодирующие последовательности по сравнению с некодирующими гораздо более консервативные , экзоны более консервативны, чем интроны . Даже если в новом геноме интроны находятся в других местах, используя гомологию можно найти гомологичные кодирующие последовательности и четко определить , где может быть интрон, экзон . То есть несколько показателей, которые характеризуют кодирующую последовательность эукариотического генома, но не один из этих показателей недостаточен сам по себе для того, чтобы надежно её идентифицировать.