Лекция_4_БИ_М_2014
.pdfВыравнивания
Определение
Выравнивание (alignment) – сравнение двух (парный) или нескольких (множественный) последовательностей. Поиск серий идентичных символов в последовательностях
VLSPADKTNVKAAWAKVGAHAAGHG
||| | |
| |
|||| | |||| |
VLSEAEWQLVLHVWAKVEADVAGHG
Первый пример выравнивания белковых последовательностей.
The molecular basis of evolution. 1959 г.
β-corticotropin (sheep) β-corticotropin (beef) Corticotropin A (pig)
25 26 27 28 29 30
ala gly glu asp asp glu ala gly glu asp asp glu asp gly ala glu asp glu
“Corticotropins of sheep and beef are identical and differ from that of the pig. This finding is consonant with the closer phylogenetic relationship of sheep and cows to each other than of either to pig” Christian B. Anfinsen (Нобелевский лауреат)
Выравнивание последовательностей: Базовая процедура биоинформатики
•Схожи ли два гена (или белка) структурно и функционально?
•Используется для поиска консервативных доменов и мотивов
•Используется для анализа геномов и транскриптомов
•Является основой для поиска BLAST
Редакционное расстояние
•Элементарное преобразование последовательности: замена буквы или удаление буквы или вставка буквы.
•Редакционное расстояние: минимальное количество элементарных преобразований, переводящих одну последовательность в другую.
•Формализация задачи сравнения последовательностей: найти редакционное расстояние и набор преобразований, его реализующий
Процедура выравнивание последовательностей позволяет увидеть зафиксированные в ДНК изменения, происходившие биллионы лет назад
Origin of |
Earliest |
Origin of |
Eukaryote/ |
Fungi/animal |
|
life |
fossils |
eukaryotes |
archaea |
Plant/animal |
insects |
BYA
4 |
3 |
2 |
1 |
0 |
Когда вы проводите выравниание гомологичных белков человека и растений, вы исследуете последовательности, общий предок которых жил 1.5 биллиона лет назад!
Multiple sequence alignment of glyceraldehyde 3-phosphate dehydrogenases: example of extremely high conservation
fly |
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA |
||
human |
GAKRVIISAP SAD.APM..F VMGVNHEKYD |
NSLKIISNAS |
CTTNCLAPLA |
plant |
GAKKVIISAP SAD.APM..F VVGVNEHTYQ |
PNMDIVSNAS |
CTTNCLAPLA |
bacterium GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA
yeast |
GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA |
||
archaeon |
GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA |
||
fly |
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST |
||
human |
KVIHDNFGIV EGLMTTVHAI TATQKTVDGP |
SGKLWRDGRG |
ALQNIIPAST |
plant |
KVVHEEFGIL EGLMTTVHAT TATQKTVDGP |
SMKDWRGGRG |
ASQNIIPSST |
bacterium KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST
yeast |
KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST |
||
archaeon |
KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST |
||
fly |
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK |
||
human |
GAAKAVGKVI PELNGKLTGM AFRVPTANVS |
VVDLTCRLEK |
PAKYDDIKKV |
plant |
GAAKAVGKVL PELNGKLTGM AFRVPTSNVS |
VVDLTCRLEK |
GASYEDVKAA |
bacterium GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA
yeast |
GAAKAVGKVL |
PELQGKLTGM |
AFRVPTVDVS |
VVDLTVKLNK |
ETTYDEIKKV |
archaeon |
GAAQAATEVL |
PELEGKLDGM |
AIRVPVPNGS |
ITEFVVDLDD |
DVTESDVNAA |
Белковые последовательности более информативны для выравнивания
•последовательность белка более информативная
(20 vs 4 символа).
•Кодоны вырождены: изменения в третьей позиции часто не изменяет аминокислоту, которую он кодирует
•Филогенетический анализ с использованием белковых последовательностей позволяет заглянуть дальше в историю
Выравнивание белковых последовательностей не всегда подходит
•Для исследования некодирующих РНК
•Для исследования мотивов и повторов ДНК
•При выравнивания cDNA, результатов секвенирования геномов и транскриптомов
•Для поиска полиморфизмов ДНК
•Филогении для близких видов и белков с высокой степенью гомологии
Определения: homology, identity, similarity
Homology
Сходство последовательностей, связанное с происхождением от общего предка. Не существует degree of homology: последовательность либо homologs, либо нет!
Для оценки степени гомологии используют:
Identity
The extent to which two (nucleotide or amino acid) sequences are invariant.
Similarity
The extent to which protein sequences are related. It is based upon identity plus conservation.