Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по геномике.doc
Скачиваний:
21
Добавлен:
13.09.2019
Размер:
1.19 Mб
Скачать

Лекция №6

Пара слов о том, как можно гены идентифицировать. Есть несколько экспериментальных методик, связанных с полной или частичной идентификацией гена.

Самый старый и самый простой способ – это гибридизация. Если у нас есть какой-то изученный геном и его гены известны, можно сделать зонды под эти гены, гибридизовать их с ДНК исследуемого организма и таким образом увидеть, где локализуется ген в геноме. Различные модификации такой методики (либо FISH, либо люминесцентное микроскопирование) позволяют разобраться, где какой ген расположен при условии наличия достаточно подробной физической карты. (Когда геном закончен, понятно, что такая карта есть.) Недостаток такой методики заключается в том, что должны быть зонды под каждый ген, прицельные, т.е. их нужно готовить специально.

Вариант гибридизации, так называемый зоо-блоттинг, не предусматривает приготовления отдельных зондов под каждый из генов. Здесь метится сразу вся ДНК. Идея: за счет того, что более консервативна кодирующая последовательность, чем некодирующая, гибридизоваться будут именно гены. Межгенные участки гибридизоваться не будут. Если взять ДНК организма, порезать ее какой-то относительно мелко щепящей рестриктазой на фрагменты и метить их, такую пробу можно гибридизовать с интересующими фрагментами исследуемого генома. Там, где есть сигнал, там, значит, ген и располагается. В простейшем случае ДНК исследуемого организма режется рестриктазой, разгоняется в геле, затем смотрят, какой фрагмент гибридизуется, а какой нет. Это дает немного больше информации, но тоже достаточно трудоемкая методика.

Особой проблемой является идентификация концов рамок считывания. Если и обнаружили, что ген «где-то здесь», то найти его начало и конец достаточно сложно. Особенно сложно найти начало. Есть несколько методик, которые позволяют находить концы. Наиболее часто используемой является RACE-методика (rapid amplification of cDNA ends, быстрая амплификация концов кДНК). Есть достаточно много модификаций RACE-методик, но общая суть сводится к тому, что к известной части мРНК делается праймер и с него начинается обратная транскрипция в сторону начала гена. Затем либо идет секвенирование, либо, что гораздо чаще, это все амплифицируется, а потом уже идет идентификация размеров ПЦР-продукта, а может быть, и секвенирование. С секвенированием – самый надежный вариант. Если просто делать кДНК на мРНК в качестве матрицы, то при секвенировании кДНК концы теряются. Тогда ближе к концу к последовательности известного сиквенса делается праймер, который будет читаться в сторону начала, будет синтезироваться кДНК уже с этого праймера. Реакция скорее всего пройдется там, где ген стартует.

Есть также методики добавления праймера к концу. Обычно подшивается олигонуклеотид. Самый простой вариант – использование фермента, который называется терминальная трансфераза. Она присоединяет любые 3 нуклеотида, которые добавляются в смесь. Обычно добавляют один нуклеотид, например Г, тогда синтезируется ГГГ. Затем используют полиЦ-праймер для синтеза комплементарной цепи и получения одноцепочечного фрагмента. Когда фрагмент двухцепочечный, можно проводить уже ПЦР с ССС-праймером и специфическим, который использовался вначале. Так нарабатывается большое количество ДНК и можно непосредственно секвенировать либо клонировать и дальше разбираться, но сейчас редко кто клонирует. Сейчас достаточно надежно получается секвенировать такие вещи.

Другая методика, которая также позволяет найти концы транскрипта, – S1-картирование. S1-нуклеаза специфична к одноцепочечным участкам ДНК. Все методики, связанные с S1-картированием, основаны на том, что одноцепочечный участок будет деградироваться, а двухцепочечный – не будет. Здесь исследуемый фрагмент нужно клонировать в векторе, который позволяет синтезировать одноцепочечную ДНК. Затем с этой одноцепочечной ДНК гибридизуется мРНК, такой гибрид обрабатывается нуклеазой, и получается двунитевой фрагмент. Этот фрагмент можно с одной стороны обрезать фиксированной рестриктазой и, таким образом, получить один фиксированный конец. Тогда можно определить, где второй конец, просто по размеру продукта. Т.е. разогнав на качественном акриламидном геле, получают сигнал. Если гнать рядом с сиквенсом, становится видно, где начинается ген (и где заканчивается тоже)???

В некоторых случаях проблема заключается в том, что даже внутренние экзоны могут потеряться, если они короткие, или не очень консервативные, или не находится гомология, или кодонные предпочтения не очень ярко выражены. Вообще любой экзон можно потерять. Есть специальные методики, которые позволяют прицельно охотиться за экзонами при помощи векторов – так называемых ловушек для экзонов. Это вектор для клонирования, в котором сайт для клонирования расположен между двумя экзонами. Располагается промотор, затем последовательность ДНК, которая соответствует экзону, интронная последовательность (сайт для клонирования) и еще один экзон. Если инициировать транскрипцию с промотора ??? вектора, будет синтезироваться РНК, затем подвергаться процессингу. В результате получится мРНК с двумя этими экзонами. На ней можно синтезировать кДНК, прогнать с ней ПЦР и посмотреть, какой размер получится. Если клонировать произвольные фрагменты ДНК по рестрикционному сайту, возможны две альтернативные ситуации: есть экзон, нет экзона. Если экзона нет, то, какого бы ни была размера вставка, после сплайсинга все равно будет получаться продукт исходного размера. Если экзон попался, процессированная РНК будет больше. Это нужно детектировать путем сначала обратной транскрипции, затем ПЦР. Таким образом можно находить фрагменты ДНК, которые несут экзоны. А затем уже секвенирование этого куска покажет, где этот экзон находится.

Мы не будем рассматривать многочисленные методики, которые направлены на прицельное экспериментальное определение кодирующих последовательностей. Наиболее полезные из них все равно сводятся к секвенированию кДНК, потому что оно сразу дает информацию о большом количестве процессированных транскриптов и промежуточных продуктах процессинга. Кроме того, если речь идет о полной характеристике генома конкретного организма, это все равно приходится делать. Поскольку эта процедура дорогостоящая (по стоимости сопоставима с определением нуклеотидной последовательности генома), есть масса методов, использующих компьютерные технологии, по крайней мере для предсказания мест в геноме, где могут располагаться кодирующие последовательности.

На прошлой лекции рассматривалось, как много факторов должны учитывать такие программы. Эти компьютерные программы работают как экспортные системы, которые взвешивают каждый из этих факторов и на выходе дают оценку, есть в этой последовательности ген или его там нет (есть там кодирующие участки или нет). Большая часть таких полграмм организована по принципу нейронных сетей. Пример нейронной сети показан на рисунке. Правильное название – «искусственные нейронные сети», т.е. симулирующие реальную нейронную структуру мозга, а именно сеть биологических процессоров, которые связаны друг с другом отростками: аксонами на более длинные расстояния, дендритами – на короткие. На схеме кружками обозначены нейроны (в данном контексте логические единицы, которые на выходе дают «да» или «нет»). Вместо отростков нейронов используются логические соединения, выражаемые в коэффициентах.

В самом простом случае нейронная сеть состоит из двух слоев нейронов. При этом входные нейроны – это логические ячейки, каждая из которых получает информацию о каком-то одном свойстве изучаемой последовательности: о рамках считывания, об использованных кодонах, о сайтах сплайсинга, о гомологии с известными кодирующими последовательностями и т.д. Есть много факторов, данные о которых поступают на вход нейронной сети. В этом же простейшем случае на выходе будет стоять всего лишь один нейрон, который будет говорить, кодирующая эта последовательность или некодирующая. Если есть рамка считывания, входной нейрон включается, идет положительный сигнал «да» к выходному нейрону. Соответствуют использованные кодоны предпочтительным кодонам для данного организма – второй входной нейрон выдает логическую единицу (1=«+»). Есть рядом подходящие сайты сплайсинга – логическая единица от третьего нейрона. Есть гомология – единица от четвертого. Если нет, посылается нуль. Все эти единицы и нули перемножаются на коэффициенты, и принимается решение, достаточно ли получившегося показателя. Понятно, что если с четырех нейронов получено четыре единицы, то выходной нейрон скажет «да» (что это кодирующая последовательность). А если их не четыре? Надо принять решение, достаточно ли этих факторов, чтобы считать изучаемую последовательность кодирующей. Понятно, что все коэффициенты должны быть каким-то образом определены. Определяются они за счет тренировки нейронной сети: на вход подаются данные по известным последовательностям, кодирующим и некодирующим, т.е. выходной нейрон при этом знает правильный ответ. Фактически нейронной сети скармливается некий массив экспериментально определенных знаний, а она рассчитывает коэффициенты (с помощью специальных программ). После такой тренировки сеть готова выдавать заключения по неизвестным последовательностям.

Но выходных нейронов, как правило, больше, т.к. идет анализ всей последовательности, а выходные нейроны говорят, кодирующая эта последовательность или нет, экзон или не экзон, интрон или не интрон, регуляторный какой-то сайт или нет, CpG-остров или нет, транспозон или не транспозон и т.д.

В наиболее серьезных программах кроме этих двух слоев нейронов используется еще так называемый спрятанный слой. Когда есть третий слой нейронов, нейронная сеть способна проводить дополнительные корреляции среди исходных данных и делать неожиданные положительные выводы. Нейронную сеть с третьим слоем гораздо сложнее тренировать, но зато считается, что она дает наиболее качественные предсказания.

Ценность нейронной сети зависит от того, насколько хорошо программист написал программу, и от качественности набора экспериментальных данных на стадии тренировки.

Есть достаточно много программ. Разрабатывались они различными группами (компаниями людей), которые, как правило, занимались анализом данных конкретного организма и писали программу специально под этот организм. Во многих случаях это была ??? Одна из первых программ – GeneMark – первоначально была написана под прокариотические последовательности, где большого смысла в ней нет. Но она умудрялась показывать ошибки в базе данных: где, например, присутствуют сдвиги рамки считывания, а где просто ошибки в аннотации. Когда в сиквенсе присутствовали ошибки, GeneMark достаточно четко детектировала, где рамка считывания может продолжиться, где она может начаться, несмотря на то, что соответствующей мутации реально не было. В этих целях эту программу первое время и использовали.

На прокариотах подобные программы просто отрабатывались, а затем их стали использовать сначала для простейших эукариот (достаточно успешно был применен тот же GeneMark к Caenorhabditis elegans, поскольку у него относительно компактные гены и кодирующей ДНК в геноме около 25%) и позже для более сложных геномов. Для последних создавались специальные программы (самые популярные перечислены на слайде). Такие программы могут различаться, поскольку иногда в них заложены различные принципы.

Помимо нейронных сетей есть еще один интересный алгоритм, который основан на так называемых спрятанных цепях Маркова (этот математический аппарат разработан советским математиком).

Если надо найти ген в геноме организма, принадлежащего хотя бы классу, в котором есть один законченный геном, практически любая из указанных программ достаточно надежно с задачей справится (с вероятностью порядка 90-95%, а это для эукариотического генома хорошо).

Если говорить дальше о той стадии, когда уже нашли кодирующие последовательности, то следующая фаза аннотации – это функциональная характеристика кодирующей последовательности. Следует учесть, что без экспериментальной проверки всем полученным компютерным сведениям грош цена. Но как первичная характеристика и как средство для выдвижения рабочих гипотез компьютерный анализ очень ценен и полезен. Поэтому далее мы подробнее рассмотрим, как сравнивать между собой кодирующие последовательности и как на основании таких сравнений можно делать предварительные функциональные характеристики геномной последовательности. Все это возможно только благодаря тому, что мы уже располагаем достаточно большим количеством информации о геномах, причем экспериментально охарактеризованных, и благодаря наличию баз данных, которые всю эту информацию хранят в удобной и доступной форме.

Самая первая база биологических данных и первые методы сравнения заложенных там данных появились в «младенческом» возрасте молекулярной биологии, когда никакой информации о геномах еще не было. Они были предложены Маргаритой Дайхофф (Margaret Dayhoff) в 1965 г. Это была белковая база данных PIR (Protein Identification Resource), поскольку на тот момент Фрэд Сэнгер только инсулин секвенировал (и относительно небольшое количество других белков после него было проанализировано). Таким образом, к созданию первой биологической базы данных число установленных аминокислотных последовательностей исчислялось несколькими десятками, а число известных нуклеотидных последовательностей равнялось нулю.

Когда появилось большее количество секвенированных белков, когда появились последовательности цитохромов из нескольких организмов и можно было начать сравнивать их, проанализировать изменения консервативности белков в ходе эволюции, Дайхофф предложила использовать метод чувствительного сравнения белковых последовательностей между собой. Он основан на использовании аминокислотных матриц замещения.

С тех пор прошло уже больше 40 лет, баз данных уже много. Сейчас без них невозможно в связи с тем, что количество информации измеряется уже терабайтами, а человеческий мозг оперировать такими объемами не в состоянии. В связи с таким лавинообразным ростом информации единственный способ доступа к ней – через посредничество компьютера.

Еще одна причина, по которой нельзя обойтись без баз данных, – это та, что уже лет 10 все ведущие научные журналы не принимают информацию о биологических последовательностях. Следовательно, единственный способ сделать эту информацию доступной для коллег – поместить ее в базу данных и дать в статье ссылку и код доступа к последовательности в этой базе. Последовательности в статьях приводятся очень редко, только когда они сравниваются между собой. При этом обычно печатаются очень короткие участки этих последовательностей, чтобы подчеркнуть определенную особенность в их строении.

Третья причина необходимости баз данных: они позволяют использовать мощные инструменты для изучения информации и для сравнения интересующих последовательностей с уже известными. Часть из этих инструментов интегрирована с базами данных, часть – существует отдельно. Некоторые из них можно установить на собственном компьютере. Тогда можно не подключаться к базе данных, а будет использована локальная выборка из нее. Иногда и такой малой выборки бывает достаточно для работы. Это получается быстрее и надежнее, поскольку Интернет не всегда хорошо работает. Подробнее об этом позже.

Прежде всего базы данных можно разделить на нуклеотидные и белковые. Нуклеотидных баз данных существует три: EMBL (European Molecular Biology Laboratory), GenBank (американская база данных), DDBJ (DNA Data Bank of Japan). Первая из них – GenBank, EMBL была создана чуть позже, а затем уже появилась DDBJ.

Белковых баз данных также существует несколько: PIR, SWISS-PROT и др. PIR и SWISS-PROT содержат первичные белковые последовательности, аннотированные, т.е. показаны положения различных активных сайтов белка, могут быть отмечены некоторые элементы структуры. Но реальную трехмерную структуру предоставляет только одна база данных – PDB (Protein Data Bank). Она в специальном формате содержит координаты атомов определенных трехмерных структур.

Базы данных можно классифицировать еще по другому признаку и разделить их на первичные и вторичные. Первичными считаются те базы данных, которые содержат экспериментально определенную информацию. Сюда автоматически попадают все нуклеотидные базы данных, поскольку это все результаты секвенирования. Из белковых сюда попадает только PDB, поскольку все трехмерные структуры определяются экспериментально. Только очень небольшая часть белковых последовательностей в PIR и SWISS-PROT реально экспериментально определена, поэтому они и все прочие белковые базы данных считаются вторичными.

Чем должна характеризоваться стандартная база данных? В базе данных записана информация о конкретных последовательностях, которые либо экспериментально определены, либо теоретически выведены на основании экспериментально определенных последовательностей. Классический пример: основная масса данных белковых баз, которые получены просто трансляцией нуклеотидных последовательностей. Чтобы был какой-то толк в базах данных, данные должны быть упорядочены, аннотированы (т.е. должна быть написана вся доступная информация), проиндексированы (индексация ведется по многим параметрам: по описанию, по авторам, по названиям статей, в которых опубликована информация, по названию гена и белка – по ключевым словам, но не непосредственно по последовательности, т.к. там другие механизмы). В базу данных встроен механизм добавления информации и механизм ее обновления, хотя с последним обычно бывает сложно. Еще один немаловажный фактор, который характеризует базу данных, – перекрестные ссылки с одной базы данных на другую. Классический пример: при сравнении белков между собой, поскольку это вторичная информация, всякая белковая последовательность будет иметь ссылку на первичную нуклеотидную последовательность, трансляцией которой и была получена соответствующая белковая. Тем самым можно проконтролировать, правильно ли была сделана трансляция, не упущено ли начало белка (в некоторых случаях приводимая белковая последовательность может начинаться не с того стартового кодона). Кроме того, могут быть ссылки на какие-то специализированные базы данных (например базы данных активных сайтов или промоторных элементов) и т.д. Как правило, каждая база данных содержит некий механизм поиска, специализированный в соответствии с используемой схемой индексации. Также имеется доступ для стандартных программ, которые занимаются поиском в таких базах данных.

GenBank создавалась в Los Alamos National Laboratory, где разрабатывали ядерную бомбу. Первоначально все данные нуклеотидных исследований были строго засекречены. Только в 1992 г. GenBank сделан полностью достуным и передан из оборонной лаборатории в ведение национального центра биотехнологической информации США. Адрес легко запомнить: National Center of Biotechnological Information (Национальный центр биотехнологической информации), National Library of Medicine (Национальная библиотека медицины), National Institute of Health (Национальный институт здоровья). Это основной центр для биотехнологических исследований во всем мире, обеспечивает доступ ко всем базам данных. На кластере суперкомпьютеров этого центра установлены программы для поиска в огромных массивах данных, и к ним есть доступ со всего мира. Т.е. можно зайти по указанному адресу, осуществить поиск в данной базе данных и во всех, которые к ней привязаны.

Размеры базы данных GenBank, приведенные на слайде, уже изменились и приближаются к 1011. Миллиарды баз данных, миллионы отдельных нуклеотидных последовательностей, больше миллиона генов, огромное количество библиографических ссылок, которые с этим связаны… В 2001 г. Наблюдался огромный темп роста, потому что заканчивалось секвенирование генома человека. Сейчас этот темп немного упал, но эта база данных по-прежнему удваивается где-то за год-полтора. На самом деле в связи с разработкой геномных секвенаторов ожидается новый скачок. Когда они начнут выдавать на-гора данные различных индивидуальных геномов, произойдет очередной резкий рывок в размерах этих баз данных.

Принято европейцам сдавать установленные нуклеотидные последовательности в европейскую базу данных (EMBL), американцам – в американскую (GenBank), японцам и прочим азиатам – в японскую (DDBJ).

Основная белковая база данных – SWISS-PROT – создана в Швейцарии. С самого начала за нее отвечает один человек – Т… Ему удалось создать команду экспертов, которые занимаются аннотацией белковых последовательностей. В середине 90-х в SWISS-PROT наблюдался кризис, когда правительство Швейцарии решило, что группа … получает слишком много денег. Но удалось получить какое-то другое финансирование и преодолеть этот кризис.

Чем она хороша? За счет того что данные не генерируются автоматической трансляцией данных GenBank, а курируются реальными людьми, эта база данных характеризуется высоким качеством. В ней практически нет дупликаций. В GenBank содержится несколько вариантов одной и той же последовательности, и если подходить формально к генерации белковой базы данных, то получится несколько белковых последовательностей, которые скорее всего будут идентичными. Если все это выполняется автоматически, эти несколько одинаковых белковых последовательностей останутся в базе данных, поскольку они будут логически привязаны к разным нуклеотидным последовательностям. SWISS-PROT – единственная белковая база данных, которая поддерживается большим штатом сотрудников. По крайней мере, часть сотрудников занимается тем, что проверяет и удаляет идентичные последовательности из базы данных и правит ссылки. Поэтому если есть несколько нуклеотидных последовательностей, соответствующих одной белковой, то в SWISS-PROT просто будут содержаться все ссылки на имеющиеся нуклеотидные последовательности. Информация при этом не теряется, и нет дупликаций.

Эта база данных содержит, наверное, самое большое количество перекрестных ссылок как на нуклеотидные последовательности, так и на специализированные базы данных. Последние оказываются очень полезными, если хотят проанализировать детально белковую последовательность.

Аннотация в SWISS-PROT очень качественная: состоящая из биохимиков и узкоспециализированных молекулярных биологов группа экспертов, которые являются специалистами в области отдельных семейств белков, аннотирует белки, которые обладают гомологией с членами соответствующего семейства. Поскольку все эти люди реально занимаются и имеют дело с белками, они действительно знают и чувствуют структуру и сиквенс белков и поэтому могут предложить качественную аннотацию. При компьютерной аннотации могут совершаться ошибки, если уровень гомологии нуклеотидных последовательностей не очень большой; в таких случаях компьютер не может сделать корректное заключение, гомологичные это последовательности или аналогичные, а человек часто может.

SWISS-PROT хорош еще тем, что на главной странице можно получить доступ к нескольким удобным инструментам для характеристики белковой последовательности, необязательно даже той, что есть в базе данных. Можно загрузить и свой белковый сиквенс.

Недостатки баз данных. Любая база данных, как и любая информация, всегда содержит ошибки, и это необходимо учитывать при использовании такой информации. В связи с тем что в базах данных содержится огромный объем информации, человек даже просмотреть это все не может, сколько бы людей не наняли. К примеру, чтобы прочитать тот же геном человека, никому жизни не хватит. Т.е. ошибки всегда будут. Их можно разделить на два типа: ошибки аннотации и ошибки секвенирования. К последним относятся замены нуклеотидов (в последовательности может стоять не та буква, которая реально присутствует в генотипе), от них никуда не денешься. Считается, что в современных сиквенсах, которые были сделаны недавно, должно содержаться не более 1 ошибки на 100 т.н.п. (хотя допустимо и до 10 т.н.п.). Более старые сиквенсы или сиквенсы, которые только что вышли из какого-то геномного проекта, могут содержать больше ошибок. Такие ошибки не очень страшны, поскольку при этом белковая последовательность сильно не нарушается. Более серьезная ошибка сиквенса – это сдвиг рамки считывания, т.е. делеция или инсерция одного или нескольких нуклеотидов, но не кратно трем. Это более серьезная ошибка, т.к. она может разорвать кодирующую последовательность, и в результате теряется часть белковой последовательности. Еще более существенная ошибка сиквенса – это отсутствие значительного фрагмента нуклеотидной последовательности, что может быть связано с шот-ган (short-gun) секвенированием и неправильной сборкой, когда уникальная последовательность была с двумя повторами (рассматривалось в предыдущих лекциях). И еще одна грубейшая ошибка сиквенса – то, что во многих базах данных сиквенс начинается с последовательности вектора. Это нонсенс, поскольку все программы для добавления последовательностей имеют специальные фильтры, которые должны отбраковывать все стандартные векторы и стандартные элементы уникальных векторов. Тем не менее, очень много подобных сиквенсов остается в базах данных, например последовательность, в которой начало от β-галактозидазы, а далее идет некий эукариотический белок. Это ситуация, когда искусственно к нуклеотидной последовательности был подшит кусок pUC. Надо иметь в виду такие случаи и каждый раз внимательно смотреть.

Существует также такой неприятный фактор, как избыточность баз данных, т.е. многие последовательности представлены несколько раз. Считается, что не менее 20% нуклеотидных последовательностей в GenBank – дупликации. Есть несколько причин, по которым они появляются (см. слайд). Одна из них – определение части некой последовательности секвенированием кДНК некоторое время назад и полное секвенирование всей мРНК на современном этапе. Внося новые данные, не перепроверяют наличие идентичных последовательностей в базе или не находят их, поскольку старые варианты могут содержать ошибки или быть неполными и иметь меньший размер. В результате в базе появляются уже две белковые последовательности, соответствующие одной мРНК. Более короткий вариант был первым, на него есть ссылки в литературе, и если удалить этот вариант, останутся непонятные ссылки. Старые варианты могут содержать ошибки, с учетом которых многие исследователи создавали некие конструкции, делали определенные выводы. Если эти варианты убрать, непонятно будет, откуда взялись эти учитываемые ошибки. Т.е. просто убрать некорректный вариант нельзя, заменить без последствий тоже не получится, тогда они остаются. И если две перекрывающиеся последовательности отличаются между собой хотя бы на один нуклеотид, они тоже остаются в базе данных.

Биологических баз данных очень много. Условно их можно разделить на базы данных, которые привязаны к конкретному модельному организму. Есть несколько специализированных баз данных, которые с разных сторон характеризуют дрозофилу: FlyBase, FlyView, DGP и др.

Есть специализированные базы данных, которые собирают информацию о консервативных участках последовательностей: это могут быть регуляторные участки ДНК, например промоторы и др. (PatternBase). Для белковых последовательностей есть сразу несколько таких баз. Самая старая из них – ProSite. Она привязана к SWISS-PROT и содержит информацию о наиболее консервативных участках, т.е. характерных мотивах отдельных семейств белков. Поскольку все это делается вручную, стараются выбирать мотивы, привязанные к активному сайту белка. Мотив обычно записан простым языком, который описывает повторяющиеся элементы в наборах из аминокислотных остатков. Т.е. можно самому написать такой мотив и с его помощью осуществить поиск в базах данных. С помощью специального инструмента в ProSite можно сравнить неизвестный белок с мотивом, характеризующим определенное семейство. При наличии совпадения с высокой степенью вероятности можно говорить, что изучаемый белок относится к этому же семейству. Такой поиск срабатывает, когда стандартные механизмы поиска гомологии не находят. Таким образом, ProSite помогает найти функциональное сходство между белками, когда оно фактически ограничено только активным сайтом.

Есть подобная, но автоматическая база данных – BLOCKS, которая сделана на основе ProSite. Каким образом? Выходит новая версия ProSite, содержащая список белков, на основании которых сделаны характерные мотивы. BLOCKS автоматически совмещает эти белки, определяет наиболее консервативные участки, выкидывает неконсервативные, и в результате остаются блоки с пробелами между ними. В BLOCKS можно использовать специальную программу поиска сходства с этими блоками, игнорируя расстояние между блоками, но немного учитывая их порядок. Это более чувствительные методы поиска для относительно удаленных друг от друга белковых последовательностей.

База данных ProDOM содержит информацию о белковых доменах. Эта база довольно хорошо аннотирована.

В чем заключается принцип сравнения белковых последовательностей? Как в стихотворении, если буквы повторяются, значит, в этом есть определенный смысл. Такой прием, как рефрен (повторение), чаще всего встречающийся в конце стихотворной строки, акцентирует внимание на вкладываемом смысле. Повторы в биологических последовательностях – это те же акценты, но расставленные природой. Они подчеркивают, что если есть сходство, если есть повтор, то в этом есть какая-то функциональная аналогия, а во многих случаях даже гомология. Если пытаться совмещать и искать сходства в текстах, последовательностях, в некоторых случаях получается дословное сходство, а в некоторых случаях дословного нет, но при внесении разрывов все равно можно найти общее, если подвигать строчки друг относительно друга. В случае биологического текста можно совмещать не только идентичные буквы, например изолейцин и валин – гидрофобные аминокислотные остатки, в некоторой степени похожие по своим свойствам. Давно показано, что это пример консервативной замены, которая в большинстве случаев кардинально свойств белка не меняет. Свойства немного изменяются, но белок сохраняет функциональность.

Маргарита Дайхофф была первой, кто детально проанализировал, какие аминокислотные замены происходят в белках. Будучи биохимиком, Дайхофф хорошо представляла, какая аминокислота какую функцию может выполнять в белке, и достаточно осознанно проводила сравнение последовательностей. Путем сравнения консервативных белковых последовательностей (цитохромы) между собой она предложила матрицы замещения, которые отражают вероятность замены одной аминокислоты на другую. В таблице величины круглые, поскольку здесь это логарифм вероятности. Консервативные замены имеют положительные значения в матрице замещения, неконсервативные – отрицательные. В таблице аминокислотные остатки еще дополнительно разбиты на группы, сходные по своим свойствам: неполярные, положительно заряженные полярные, отрицательно заряженные полярные, гидрофобные, ароматические. Замена изолейцина на изолейцин и изолейцина на валин имеют близкие значения в матрице. Если посмотреть на положительно заряженные остатки, замена аргинина на лизиновый остаток также имеет достаточно хорошее положительное значение. При замене валина на самого себя цифра маленькая, потому что это не консервативный остаток и в большинстве случаев на его месте будет другая аминокислота, так что вероятность повторной встречи валина на этом же месте низкая. Триптофан наоборот почти никогда ни на что не заменяется, поэтому вероятность, что здесь же в другом белке будет триптофан, максимальна. Это консервативный аминокислотный остаток за счет своих уникальных свойств. В целом ароматические аминокислоты заменяются реже, гидрофобные и полярные – часто. Серин и треонин часто заменяются друг на друга, они еще могут замениться и на аланин, и на глицин. Чем больше цифра в матрице, тем реже соответствующие аминокислотные остатки заменяются друг на друга. Чем меньше цифра, тем чаще… Замена заряженной аминокислоты на заряженную или заряженной на полярную менее консервативны, чем замена одной из них на гидрофобную.

Таких матриц есть несколько. Та же Дайхофф в начале 70-х гг. предложила целую серию матриц, которые были разработаны для белков, находящихся на различном эволюционном расстоянии друг от друга. В чем здесь может заключаться проблема? Если белки очень далеки, в одной позиции могло уже произойти несколько замен, и это нужно учитывать, потому что иначе получается слишком большая погрешность. Не та статистика получается, и матрицы оказываются не такими чувствительными. Для близкородственных белков такой возможностью можно пренебрегать.

До середины 90-х этими матрицами пользовались практически без изменений. Позже их обновили. Бласт до сих пор пользуется другой матрицей, которая называется блоссон хирия – аббревиатура от blocks substitution matrix. Стандартная матрица – blocks62. Цифра соответствует проценту идентичных аминокислот в сравниваемых белках, которые использовались для создания этой матрицы. Т.е. blocks62 будет лучше всего работать на белках, сходных друг с другом на 62%. Если анализируются более сходные белки, нужно брать другую матрицу, например blocks80. Если менее сходные – blocks30 или др. Выбор матрицы во многом определяет чувствительность сравнения, поскольку близкородственные и не очень близкородственные белки по-разному эволюционировали.

Рисунок 3,25

Лекция 7 обязательно просмотрите практику (занятие1)!!

Используеися натуральный логарифм, который округляется. Положительное значение говорит о консервативной замене, отрицательное – о неконсервативной.

Сравнение последовательностей.

Первый шаг в сравнении-совместить таким образом, чтобы идентичные основания стояли друг напротив друга, или были консервативными.

Рисунок 3,27

За счет пробелов можно сдвинуть и увеличить степень соответствия между последовательностями.

Как выразить степень сходства? Самый простой и древний способ – точечная диаграмма.

Рисунок 3,28

Принцип – берутся две последовательности, 1 последовательность пишется по одной оси, 2 – по другой. Где буквы совпадают по вертикали и по горизонтали - ставится точка. Если основания идут подряд - точки выстаиваются по диагонали. Является наглядным способом.

Рисунок 3,29

Реальная картина сравнения белковых последовательностей.

Получается, что таких диагоналей много, но только часть из них - значимые. За счет подбора параметров можно убрать неспецифическое взаимодействие и в результате ограничится более значимой – главной диагональю. Она разорвана на несколько кусочков, т.к. в ходе эволюции происходили делеции или вставки.

Манипуляция с параметрами позволяет выявить гомологичные участки и правильно сопоставить последовательности между собой.

Для сопоставления используются определенные алгоритмы. Самые первые - глобальные и локальные.

Рисунок 3,40

Глобальный алгоритм: сравниваются целиком две короткие последовательности. Преимущество – точно просчитать статистическую вероятность совпадения последовательностей друг с другом при введении пробелов. Затем нужно двигать последовательности влево/вправо и в некоторых случаях добавлять разрезы/убирать их. Это длительный и исчерпывающий процесс.

Локальный алгоритм работает по-другому. Сначала между двумя последовательностями выбирают небольшой участок, который совпадает между ними. Затем алгоритм расширяет область гомологии влево/вправо.

Программа передает информацию словами. Понятие слово – последовательность символов. В случае аминокислотной последовательности – 2-6 букв (аминокислот)/редко 1; нуклеотидная длинее - 11 (7-12)

Как работает программа? Выбирается определенное слово и находится то место, где оно встречается в другой последовательности. Когда место локализовано, алгоритм пытается решить область гомологии влево/вправо.

Показатель степени гомологии. В нуклеотидной последовательности – число совпадающих нуклеотидов, в аминокислотной – содержится больше информации, считается не число, а по матрице замещения суммируются цифры. В результате счет, который выдает программа, может быть положительным – идентичные/консервативные паследовательности, и отрицательным – неконсервативные/негомологичные. Путем введения пробелов можно всегда получить положительное значение.

Самый первый алгоритм Смита-Уотермана в 70-ых гг.

Рисунок 3,41

На примере нуклеотидных последовательностей берется точечная диаграмма. Если совпадает значение нуклеотидов - ставится 1 очко. Можно продлить диагональ дальше – просто сдвинуть. В норме алгоритм суммирует значения и вычисляет стоимость пробела. Алгоритм работает путем максимального продления диагонали и минимального внесения разрывов. На выходе алгоритм дает совмещенные последовательности и счет соответствует случайному совпадению последовательности между собой. До сих пор используется, но в целях поиска информации в БД непригоден, т.к. очень медленно работает.

Принципиально другие алгоритмы – эвристические, которые не опираются на достоверные статистические данные. Суть – не вычисление детальной статистики, используется другой подход. Достаточно произвольно выставляются буквы за совпадающие буквы и пробелы.

Рисунок 3,42

FASTA жива до сих пор. Алгоритм наиболее близок к алгоритму Смита-Уотермана. Чувствительный, может работать для отдаленных последовательностей. BLAST находит блоки идентичных оснований, которые должны быть достаточно протяженными, поэтому плохо работает на отдаленных последовательностях. Есть модификации, которые не уступают по чувствительности.

Принцип действия алгоритмов один и тот же. Первый поиск – эврестический, когда отобраны последовательности – вторичный поиск – исчерпывающие совпадения последовательностей, где есть реальные области гомологии.

Рисунок 3,43

Blastx, fastx, fasty – сравнение нуклеотидной последовательности с белковой. Как это происходит? ДНК транслируется и сравниваются с белковой последовательностью в БД. Преимущества – более чувствительный метод. В эволюции нуклеотидные замены идут быстрее, чем белковые. На уровне нуклеотидов можно не видеть сходства, а на уровне белков видеть, когда происходит замена в консервативной АМК свойства белка не должны менятся, что позволяет видеть более отдаленную гомологию. Позволяет учитывать ошибки в рамках считывания.

TBlastn, tfastx, tfasty – наоборот, сравнение белковой последовательности с белковой БД. Отличия х и у – у более чувствительна, поскольку учитывают кодоны, т.е. не вносит разрывы в пределах кодона. Преимущества – позволяет сравнить белк. посл. С той белк.посл., которой еще нет в белковой БД, что связано с длительностью аннотации (перевод из нуклеотидной БД в белковую). Информация в итоге может и не попасть в белковую БД за счет ошибок аннотоции, секвенирования, ошибки рамки считывания.

TBlastх – очень большая нагрузка на компьютер ( в 36 раз больше).

Как работоть в программе – практика по геномике!!!

Компьютер позволяет определить вероятность случайного сходства между собой и не более того!!

Рис.3,44

Лекция 8

Эволюция геномов

Рис. 4,1

15 млрд.л.н. – большой взрыв – первый шаг в эволюции геномов.

Есть смысл стартовать с клеточной формы жизни.

Сейчас общепринятым считается, что первичным носителем генетической информации является РНК. Причина: универсальная молекула, которая помимо кодирующей функции может обладать и ферментативной.

Рибозимы – молекулы, способные сами осуществлять процессинг. Встечаются у всех организмов. Примеры: в состав сплайсосомы входит малая РНК (у человека); рибонуклеаза П – включается в процессинг первичных транскриптов р тРНК у бактерий. Связана с белками. Если белки убрать, сродство фермента не меняется, только снижается скорость оборотов; многие вироиды – in vitro могут осуществлять не только сплайсинг, но и другие реакции – лигирования, синтеза НК, эндонуклеазные.

Рибозимы на основе РНК могут обеспечить свой метаболизм – одна и та же молекула может выполнять как кодирующую так и ферментативную функцию.

Рис. 4,2

В бульоне с одним рибонуклеотидом могли спонтанно спариваться путем комплементации и могла идти реакция полимеризации. РНК могла реплицироваться. Если молекула обладает и каталитической активностью, то они получают преимущества – так мог сформироваться аппарат репликации и трансляции.

Рис. 4,3

Самая простая возможность – одна и та же молекула обладала и кодирующей и рибозимной функцией. Первичная молекула должна катализировать свою реакцию и катализировать реакцию синтеза АМК.

Альтернативный, более сложный вариант – рибозимная часть – отдельная молекула.

Рис. 4,4

РНК→ДНК, только когда сформировался аппарат трансляции.

Первичный бульон был самовосстанавливающимся за счет восстановления рибонуклеотидов в дезоксирибонуклеотиды. Могла синтезироваться ДНК- такие молекулы будут более стабильными. Преимущества – подвергаются различным ???????

Почему именно ДНК – носитель генетической информации?

Рис. 4,5

Схожий полимер – пептидная нуклеиновая кислота. В качестве остова – пептидная цепь. В принципе, могла обладать рядом преимуществ. Много работ по изучению, но все они далеки 

Откуда взялась клетка?

Самая распространенная гипотеза Опарина, но и она ничего не объясняет. После того, как сформировалась клетка началась биологическая эволюция.

Рис. 4,6

Дерево жизни. Отражает, насколько друг от друга группы организмов. Непонятно: как сформировались 3 н/царства?

Геном у всех организмов был одинаковый, за исключением прерывности/непрерывности.

Механизм эволюции геномов:

У прокариот – горизонтальный перенос генов – межвидовой перенос.

У эукариот – не наблюдается, характерен перенос от паразита к хозяину и наоборот. Паразиты могут быть прокариотами, поэтому в структуре генома наблюдаются прокариотические гены.

Рис. 4,7

События с геномами. Соответствуют уровню организации.

Геномные – для эукариот( растений, некоторых грибов и животных). После полиплоидизации многие со временем теряют часть приобретенных генов.

Между геномными и хромосомными – анеуплоидия (синдром Дауна).

Хромосомные. Достаточно крупные события, в отличие от генных, приводят к генетической изоляции.

Генные – механизмы те же ↑, но не блокируют межвидовые отношения.

Доменный – к формированию новых функций.

Нуклеотидный – вызывают сдвиг/возврат рамки считывания.

Откуда берутся изменения? Дупликации возникают в результате нарушения расхождения хромосом в мейозе. В лаб. Условиях можно вызвать колхицином.

Механизм дупликации в двух вариантах: 1 – автополиплоидия- между организмами 1 вида; 2 – межвидовая – между двумя различными видами. Как правило фертильны.

Рис. 4,9

Хромосомные перестройки – события, связанные с рекомбинацией. Необходима протяженная область гомологии – гомологическая рекомбинация. Имеет место, когда сначала произошла полиплоидизация – быстрее происходит перетосовка. Значительная часть материала утрачивается при делеции. Т.к. создается нагрузка – селекционное давление→сокращение генома. Всякая дупликация сопровождается последующей делецией!!!

Прогресс у полиплоидов только в тои случае, когда происходит быстрая редукция генома.

Таким образом, новая функция образуется в результате сначала дупликации, затем делеции.

Генный уровень – внутренние мутации, могут быть на нуклеотидном и генном уровне.

- Дупликация гена – две копии одного и того же гена, один инактивируется – образуется псевдоген, из которого может сформироваться что-то новое. В результате перетосовки – внутренней рекомбинации – образуется новая нуклеотидная последовательность, которая может синтезировать новый белок. Вероятность того, что новый белок будет функционоровать очень низкая у прокариот и выше у эукариот за счет прерывистого строения генов. Во многих случаях экзоны соответствуют если не доменам, то функционально обособленным учпсткам белковых структур. При рекомбинации между ними не происходит нарушения.

- Горизонтальный перенос – у прокариот. В результате б/ф, коньюгированных плазмид, транспозонов, трансформации.

Механизм появления новой функции генома – дупликация – 1 из копий должна быть выкинута – мутациооные изменения. Вероятность дупликации 1 на 1 млн.л., дивергенции – 0,1 за 1 млн.л., полная инактивация 1 гена 4 млн.л.. В результате появляются псевдогены – инактивированные гены, отличающиеся от функциональных последовательностей несущественно.

Р результате чего происходит инактивация гена:

1. Инактивация промотора ( дупликация может не захватывать промотор).

2. Утрачиваются сайты сплайсинга

3. Нонсенс мутации, приводящие к остановке трансляции

4. Миссенс мутации(не так существенно)

Любое из изменений делают ген неактивным, но при появлении первых из них появляются и следующие из них. В псевдогенах все равно сохраняются функциональные участки генома.

Лекция 8 (часть 2)

Эволюция глобулиновых генов хорошо изучена. Существует 2 кластера глобулиновых генов – α и β. Каждый из них содержит один/несколько функциональных генов и группу псевдогенов. Экспрессируются на разных этапах индивидуального развития. Выполняют различные функции. Не очень отличаются по последовательностям, но отличаются по свойствам, а точнее по сродству к кислороду: в эмбриональный период оно выше, чем у взрослого чела.

Рис 4,20

Откуда их так много? Первый глобин сформировался очень давно, он был еще у предшественников растений и животных.

Сначала происходила дивергенция, затем дупликация миоглобулина и гемоглобина, кластеры перемещались по хромосоме. В результате имеем нынешнюю структуру.

Рис 4,20

Время на формирование сложной структуры уходит очень много.

Рис 4,33, 4,36

Принципиально различная скорость эволюции кодирующих и некодирующих последовательностей.

Речь о молчащих сайтах.?????

В пределах кодирующих последовательностей эволюция накапливает нуклеотидные замены быстрее в 3 позиции, чем в 1 и2.

Откуда берутся дупликации? Стандартный механизм – гомологичная рекомбинация между сестринскими/различными хромосомами. Неравномерный кроссинговер приводит к тому, что какой-то фрагмент хромосомы дуплицируется.

В геномах большинства организмов характерно наличие большого числа тандемно повторяющихся последовательностей рДНК.

Для бактерий характерно меньшее число рДНК, которые разбросаны по геному.

Есть сателитные Днк – более мелкие повторы, могут иметь разную структуру. Н: минисателиты риса, алу повторы чела. Сателлиты берутся от неравномерного кроссинговера, либо за счет проскальзывания вилки

Рис 4,27

Бывают ситуации, когда в популяции присутствует различное число разных повторов и тогда неравный кроссинговер может обеспечить гомогенизацию. Тандемные повторы являются идентичными.

Рис 4,29

У большинства членистоногих очень короткие сателитные повторы, но присутствуют в огромном количестве.

Рис 4,30

У человека практически 1 алу повтор, у мышей – 4 повтора.

Рис 4,31

Если какая-то последовательность повторяется. Поскольку конец вновь синтезированной ДНК подвижен, может образовываться выпячивание и повтор может подвинуться. Срабатывает для коротких последовательностей.

Рис 4,32

Принципиально механизмы эволюции не отличаются от механизмов генного уровня. А выделяют этот уровень, т.к. процессы, связанные с репликацией доменов отвечают за возникновение новых функций.

Сложно сказать, какие сначала были гены – прерывистыми/нет. Николайчику Е.А.  больше нравится версия, что сначала были прерывистые гены, из которых произошли непрерывистые.

Суть в том, что прерывистая структура ускоряет процесс эволюции, т.к. экзоны, как правило, соответствуют кодонам/более мелким функциональным структурам. В результате рекомбинации между участками происходит перенос функционального модуля в другой белок. В результата получается новый функциональный ген.

Рис 4,35

Предполагает, что первоначально геном состоял из очень коротких генов, каждый из которых синтезировал короткий пептид, который соответствовал одному домену. Затем пептиды собираются в мультисубъеденичный белок, который выполняет свои функции за счет тесной ассоциации пептидов. Сейчас это соответствует мультидоменному белку, в котором пептиды объединены ковалентной связью. Для того, что бы он сформировался, необходимо, чтобы короткие гены были соединены в один ген и транскрибировались и транслировались совместно. В результате такой же белок получается. Переход от короткого непрерывного гена к одному прерывистому.

Новые гены у более продвинутых организмов появляются в результате рекомбинации уже имеющихся белковых структур. Все разнообразие геномов сводится к тысячи базовых белковых доменных структурам.

Рис 4,38

Ортологи – гены, выполняющие одну и туже функцию, образовались в результате дивергенции одного вида.

Паралоги – гены, имеющие сходные нуклеотидные последовательности, выполняющие различные функции. Произошли в результате внутригенной дупликации и последующей дивергенции функций.

Бывают сложные ситуации. Н: в геноме предкового вида произошла внутригенная дупликация, затем дивергенция вида на два (А и Б). В ходе эволюции накапливались изменения. В каждом виде есть по два гена и все сходны. Виду А не нужна функция первого гена и он утрпчивается, виду Б не нужен второй ген. У каждого осталось по одному гену. Кем являются эти гены? Паралогами.

Таким образом, только по сходству нуклеотидных последовательностей невозможно установить функцию и происхождение.

Рис 4,39

Сейчас считают, что эукариотическая клетка – результат многочисленных симбиозов, т.е. геном является гибридным. Некоторые считают, что ядро – тоже результат симбиоза. Хлоропласты и митохондрии – 100%. Ядерный геном – гибрид, в который мигрировала значительная часть генов митохондрий и хлоропластов.