Lection03
.pdfЛекция 3. Банки биологических данных и форматы данных
Лекция 3.
Банки биологических данных и форматы данных
Шишкина Э. Л.
Воронежский государственный университет
30 сентября 2014 г.
Лекция 3. Банки биологических данных и форматы данных
GenBank
Основным источником генетических данных на данный момент является международная база данных GenBank. База данных открыта для всех и позволяет осуществлять и загрузку и выгрузку данных всеми пользователями. Для поиска и получения данных регистрация необязательна.
Лекция 3. Банки биологических данных и форматы данных
GenBank
Рис. 1. Базы биологических последовательностей.
Лекция 3. Банки биологических данных и форматы данных
GenBank
Адрес:
http://www.ncbi.nlm.nih.gov/Genbank/
GenBank база данных генетических последовательностей, поддерживается NIH (Национальный Институт Здоровья США), аннотированная база известных последовательностей ДНК, РНК и белков, с литературными ссылками на первоисточники и информацией биологического характера.
Лекция 3. Банки биологических данных и форматы данных
Обновляется каждые два месяца. Является частью International Nucleotide Sequence Database Collaboration, которая объединяет три крупнейшие коллекции нуклеотидных последовательностей: DDBJ (NIG), EMBL (EBI) и GenBank (NCBI).
Лекция 3. Банки биологических данных и форматы данных
Крупнейшая интегрированная поисковая система ENTREZ для нуклеотидных и аминокислотных последовательностей, библиографии (PubMed), полных геномов (Genomes), а также трехмерных структур белков (MMDB) создана и поддерживается NCBI. При этом поиск ДНК и белков не ограничивается только ресурсами GenBank, но и другими доступными по сети хранилищами информации.
Лекция 3. Банки биологических данных и форматы данных
Поиск и получение данных из GenBank может осуществляться с помощью нескольких интерфейсов:
Самый простой интерфейс для получения и поиска генетических последовательностей (нуклеотидных, аминокислотных и белковых) называется Entrez Nucleotide. Через этот интерфейс удобно искать последовательности по ключевым словам (например, вид, название гена, год публикации, авторы и т.д.)
Лекция 3. Банки биологических данных и форматы данных
Более комплексный интерфейс BLAST (Basic Local Alignment Search Tool) позволяет искать совпадения на основании непосредственно нуклеотидных последовательностей, а также картировать найденные последовательности и сравнивать степень их совпадения друг с другом.
Лекция 3. Банки биологических данных и форматы данных
Наиболее продвинутый, но в тоже время гибкий, интерфейс доступа к базе NCBI e-utilities. Он позволяет на програмном уровне обратиться к базе данных и получить данные в батч-режиме (много записей единым блоком). Написание скриптов возможно в общем-то на любом языке программирования, но уже доступны библиотеки под Perl (BioPerl), Python (Biopython) и др.
Лекция 3. Банки биологических данных и форматы данных
Все данные в GenBank хранятся в двух основных форматах:
Нативный формат GB (который так и называется genbank),
один из наиболее широко распространенных форматов хранения и передачи генетических данных fasta.