UniProt
UniProt | |
---|---|
Содержимое | |
Описание | База данных последовательностей белков |
Тип данных | Аннотирование белков |
Организмы | Все |
Контакты | |
Исследовательский центр | EMBL-EBI, UK; SIB, Switzerland; PIR, US. |
Доступность | |
Формат данных | FASTA, GFF, RDF, XML. |
Сайт | uniprot.org uniprot.org/news/ |
UniProt — открытая база данных последовательностей белков. Консорциум UniProt действует с 2003 года
. Единая база данных UniProt была создана путём объединения нескольких баз . UniProt состоит из четырёх крупных баз данных (База знаний , Архив , Справочные кластеры и метагеномные данные ) и охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.Uniprot-консорциум
В UniProt-консорциум входят: Европейский Институт Биоинформатики (EBI), Швейцарский Институт Биоинформатики (SIB) и Белковый Информационный Ресурс (PIR)[1].
В EBI, расположенном в посёлке Хинкстон (Hinxton), Великобритания, размещено большое количество биоинформатических баз данных и сервисов[2].
SIB, расположенный в Женеве, Швейцария, является хранилищем серверов, служащих для экспертного белкового системного анализа (ExPASy-серверов), являющихся главным источником для инструментов протеомики и соответствующих баз данных[3].
PIR расположен в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, и представляет собой интегрированный биоинформатический ресурс, предназначенный для поддержки исследований в области геномики и протеомики[4].
В 2002 году PIR (Белковый Информационный Ресурс), вместе со своими международными партнёрами, EBI (Европейским Институтом Биоинформатики) и SIB (Швейцарским Институтом Биоинформатики), получили грант от Национального Института Здоровья (NIH) для создания UniProt, единой всемирной базы данных последовательностей и функций белков. Так появился консорциум UniProt[5]. Проект UniProt начал действовать с декабря 2003 года[6].
UniProt финансируется за счёт грантов от Национальных Институтов Здравоохранения США (NIH), Национального Института исследования генома человека (NHGRI), Национального Института Общемедицинских Hаук (NIGMS), Британского фонда по борьбе с сердечными заболеваниями (BHF), Швейцарского Федерального Правительства через Федеральное управление образования и науки, Национального научного фонда (NSF)[1][7].
Происхождение базы данных UniProt
Единая база данных UniProt была создана путём объединения баз данных Swiss-Prot, TrEMBL и PIR — PSD[8][9][10].
Swiss-Prot
База данных Swiss-Prot была создана в 1986 году Амосом Байрошем во время работы над своим PhD-проектом и развита в дальнейшем в Швейцарском Институте Биоинформатики (SIB), а позже доработана Рольфом Апвейлером в Европейском Институте Биоинформатики (EBI)[11][12][13]. Основная функция базы данных Swiss-Prot направлена на обеспечение надёжности информации о белковых последовательностях, обусловленной высоким, детальным уровнем аннотации, выполненной вручную. Она включает описание функции белка, его доменной структуры, пост-трансляционных модификаций, различных вариантов последовательности и т. д., причём с минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных[1].
TrEMBL
База данных «Библиотека данных Нуклеотидных последовательностей» (TrEMBL) была разработана в 1996 году как аннотированное компьютерное приложение к Swiss-Prot[8][10][11]. Решение о создании TrEMBL было принято в ответ на увеличение потока данных в результате появления геномных проектов, а затратный по времени и трудоемкий процесс ручной аннотации в UniProtKB / Swiss-Prot превышал возможности Swiss-Prot для того, чтобы включить все доступные белковые последовательности[8][10]. TrEMBL предоставляет возможность автоматизированной аннотации для трансляции имеющихся нуклеотидных последовательностей и превращения их в белковые последовательности вне Swiss-Prot[6].
PIR-PSD
PIR, организованный Национальным фондом медико-биологических исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, а именно, созданным Маргарет Окли Дейхофф «Атласом последовательностей белка и структуры», впервые опубликованным в 1965 году[14]. PIR поддерживает несколько белковых баз данных, а именно: главную базу белковых последовательностей (PIR-PSD), базу данных, связанную с классификацией белков по структуре и функциям (iProClass), а также другие базы данных белковых последовательностей и курируемых семейств[1].
Организация баз данных UniProt
UniProt предоставляет четыре основных базы данных:
- UniProtKB (Swiss-Prot и TrEMBL),
- UniParc,
- UniRef,
- UniMes.
UniProt KnowledgeBase (UniProtKB)
База знаний UniProt (UniProtKB) представляет собой белковую базу данных, частично курируемую экспертами и состоящую из двух секций:
- UniProtKB / Swiss-Prot, содержащую обзорные, вручную аннотированные записи. По состоянию на 15 марта 2017 года UniProtKB / Swiss-Prot содержит 553941 запись последовательностей (включающих 198311666 аминокислот), полученных из 251243 источников[15].
- UniProtKB / TrEMBL, содержащую нерецензированные, автоматически аннотированные записи[7]. По состоянию на 15 марта 2017 года UniProtKB / TrEMBL содержит 80204459 записей белковых последовательностей (включающих 26890984395 аминокислот)[16].
UniProtKB/Swiss-Prot
UniProtKB/Swiss-Prot является аннотированной вручную, без резервирования, базой данных белковых последовательностей. Целью UniProtKB / Swiss-Prot является предоставление всей известной необходимой информации о конкретном белке[1]. Аннотации регулярно проверяются, чтобы соответствовать текущим научным результатам. Требования к составлению аннотации записи включают подробный анализ последовательности белка и данных о нём из научной литературы[17]. Последовательности белка того же самого гена и того же вида объединены в одной и той же записи базы данных. Различия между последовательностями идентифицированы, и их причины документально зафиксированы и приведены (например, такие как альтернативный сплайсинг, естественные изменения, неправильные сайты инициации, неправильные экзонные границы, неправильные рамки считывания, список неопознанных конфликтов и другие). Целый диапазон инструментов анализа последовательностей используется при аннотации записей в UniProtKB/Swiss-Prot. Компьютерные предсказания вручную анализируются, и подходящие результаты отбираются для включения в записи базы данных. Эти предсказания включают пост-трансляционные модификации, последовательность, структуру и топологию трансмембранных доменов,сигнальные пептиды, доменную идентификацию и классификацию белковых семейств[17][18]. Соответствующие публикации идентифицируются поиском в базах данных, таких как PubMed. Полный текст каждого документа считывается, и информация добавляется к записи.
Аннотация, как правило, включает нижеперечисленную информацию[6]:
- название белка и гена;
- функция белка;
- фермент-специфическая информация, такая как каталитическая активность, кофакторы и каталитические остатки;
- внутриклеточная локализация;
- белок-белковые взаимодействия;
- шаблон (pattern) экспрессии;
- местоположение и роль важных доменов и сайтов;
- ионные, субстратные и кофакторные сайты связывания;
- белковые вариантные формы, происходящие вследствие природных генетических изменений, редактирования РНК, альтернативного сплайсинга, протеолитических воздействий и пост-трансляционных модификаций.
Аннотированная запись должна пройти контроль качества перед включением в UniProtKB / Swiss-Prot. При появлении новых данных существующие записи обновляются[1].
UniProtKB/TrEMBL
UniProtKB / TrEMBL содержит записи, проанализированные с помощью компьютерной техники, которые дополнены при помощи автоматической аннотации[1].
Трансляция аннотированных кодирующих последовательностей в базах данных последовательностей нуклеотидов, таких как Европейская молекулярно-биологическая лаборатория (EMBL-Bank), ГенБанк, Японская база данных ДНК (DDBJ) осуществляется автоматически, после чего эти белковые последовательности заносятся в UniProtKB / TrEMBL. UniProtKB / TrEMBL также содержит последовательности из Белкового Банка Данных (PDB) и предсказанные гены, в том числе из Ensembl — объединённого научного проекта, включающего Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute, RefSeq и CCDS[19].
UniProt Архив (UniParc)
UniProt Архив (UniParc) представляет собой всеобъемлющую, содержащуюся без резервирования базу данных, которая содержит последовательности белков из основных общедоступных баз данных белковых последовательностей[20]. Так как один и тот же белок может находиться в нескольких различных исходных базах данных, а также присутствовать в нескольких экземплярах в одной и той же базе данных, во избежание избыточности UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, являются ли они белками, представляющими одни и те же или разные виды. Каждой последовательности присвоен стабильной и уникальный код (УПИ), что делает возможным идентифицировать один и тот же белок из различных исходных баз данных[1].
UniParc содержит только белковые последовательности без аннотации. Перекрёстные ссылки в записях из базы данных UniParc позволяют получить дополнительную информацию о белке из базы данных, являющейся первоисточником. Если в исходных базах данных последовательности изменяются, эти изменения отслеживаются в UniParc, а история всех изменений сохраняется в архиве[1].
База данных | Тип данных |
---|---|
Японская база данных ДНК (DDBJ) Европейский архив нуклеотидов (ENA) База данных ДНК и РНК (GenBank) | Кодирующие последовательности |
Объединённый научный проект, включающий Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute (Ensembl) База данных Геномной Аннотации Позвоночных (VEGA) | Прогнозируемые кодирующие последовательности из геномов позвоночных |
Основное хранилище генетических и молекулярных данных для насекомых семейства Drosophilidae (FlyBase) | Кодирующая последовательность для видов из семейства Drosophilidae |
Исчерпывающий источник аннотаций для человеческих генов и транскриптов (H-Inv) | Последовательности человеческого белка |
Международный Белковый Индекс (IPI) | Протеиновые последовательности высших эукариот |
Patent Offices in Europe, US and Japan (USPTO) | Кодирующие последовательности, связанные с патентами из патентных ведомств |
Белковые информационные ресурсы (PIR-PSD) | Курированные последовательности белка |
Белковый Банк данных (PDB) | Последовательности белков, трёхмерные структуры которых находятся в PDB |
Белковый исследовательский фонд (PRF) | Протеиновые последовательности из научных трудов и предсказаний |
Кластеры ссылок UniProt (RefSeq) | Кодирующие последовательности из набора NCBI геномных, транскрипционных и белковых эталонных последовательностей |
Дрожжевая геномная база данных (SGD) | Кодирующие последовательности для Saccharomyces cerevisiae |
База информационных ресурсов для Arabidopsis thaliana (TAIR) | Кодирующие последовательности для Arabidopsis thaliana |
TROME | Прогнозируемые аминокислотные последовательности |
UniProtKB/Swiss-Prot | Обработанные вручную белковые последовательности, главным образом производные от TrEMBL |
UniProtKB/TrEMBL | Автоматически курируемые последовательности белка, полученные из кодирующих последовательностей в базах данных нуклеотидных последовательностей |
База данных геномных и других биологических характеристик Caenorhabditis elegans (WormBase) | Кодирующие последовательности для нематоды Caenorhabditis elegans |
Справочные кластеры UniProt (UniRef)
Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB и отобранных записей UniParc[21].
База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (из любого организма) в одной записи UniRef[1].
Последовательности UniRef100 были кластеризованы с использованием CD-HIT алгоритма[21][22], чтобы построить UniRef90 и UniRef50[22]. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. В настоящее время покрытие UniRef превышает 4000000 исходных последовательностей[23].
Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков[1].
Записи UniRef содержат сведения о последовательности репрезентативного белка, подсчёт членов и общей таксономии кластера, а также регистрационные номера всех присоединяемых записей и ссылок на аннотации в UniProtKB для облегчения биологических исследований[1].
UniRef доступен с сайта UniREF FTP[24].
UniMrot (UniMes)
UniProt KB содержит записи с известной таксономией источника. Новые разработки привели к обнаружению новых источников для поиска белковых последовательностей. Появление метагеномных данных потребовало создания принципиально нового раздела в UniProt KB, а именно, отдельной базы данных — UniProt метагеномных последовательностей и неизвестных последовательностей из окружающей среды, UniMES (The UniProt Metagenomic and Environmental Sequences database)[25].
Метагеномика (metagenomics) представляет собой масштабный геномный анализ микробов, выделенных из проб из окружающей среды, в отличие от лабораторно выращенных организмов, которые представляют лишь небольшую часть микробного мира.
UniMES в настоящее время содержит данные о белковых последовательностях организмов из мирового океана, обеспеченных глобальной океанической экспедицией по сбору проб (Global Ocean Sampling expedition — GOS)[25], которые были первоначально представлены в Международной базе данных нуклеотидных последовательностей (INSDC)[26].
Первоначальный GOS-набор данных состоит из 25 миллионов последовательностей ДНК, в основном из океанических микробов, и почти 6 миллионов предсказанных белков. UniMES объединяет предсказанные белковые последовательности с автоматической классификацией по Interpro, который является интегрированным ресурсом для белковых семейств, доменов и функциональных сайтов. Поэтому UniMES является уникальной базой данных, которая обеспечивает свободный доступ к массиву геномной информации, полученной от экспедиций для отбора проб. Данные пробы из окружающей среды, содержащиеся в этой базе данных, отсутствуют в UniProt базе знаний или UniProt справочных кластерах (UniRef), но интегрированы в UniParc[27].
UniMES доступен на UniProt FTP site в формате FASTA[28].
Примечания
- ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 About UniProt (англ.). http://www.uniprot.org/help/about.+Дата обращения: 31 марта 2017. Архивировано 30 апреля 2017 года.
- ↑ About EBI (англ.). https://www.ebi.ac.uk/about/travel.+Дата обращения: 24 апреля 2017. Архивировано 1 мая 2017 года.
- ↑ About SIB (англ.). http://www.sib.swiss/about-us.+Дата обращения: 24 апреля 2017. Архивировано 25 апреля 2017 года.
- ↑ About PIR (англ.). http://pir.georgetown.edu/pirwww/about/.+Дата обращения: 24 апреля 2017. Архивировано 22 марта 2017 года.
- ↑ Funding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283 Архивная копия от 24 сентября 2015 на Wayback Machine)
- ↑ 1 2 3 Apweiler R., Bairoch A., Wu C. H. Protein sequence databases. (англ.) // Current opinion in chemical biology. — 2004. — Vol. 8, no. 1. — P. 76—80. — doi:10.1016/j.cbpa.2003.12.004. — PMID 15036160.
- ↑ 1 2 The Universal Protein Resource (UniProt) in 2010. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D142–148. — doi:10.1093/nar/gkp846. — PMID 19843607.
- ↑ 1 2 3 O'Donovan C., Martin M. J., Gattiker A., Gasteiger E., Bairoch A., Apweiler R. High-quality protein knowledge resource: SWISS-PROT and TrEMBL. (англ.) // Briefings in bioinformatics. — 2002. — Vol. 3, no. 3. — P. 275—284. — PMID 12230036.
- ↑ Wu C. H., Yeh L. S., Huang H., Arminski L., Castro-Alvear J., Chen Y., Hu Z., Kourtesis P., Ledley R. S., Suzek B. E., Vinayaka C. R., Zhang J., Barker W. C. The Protein Information Resource. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 345—347. — PMID 12520019.
- ↑ 1 2 3 Boeckmann B., Bairoch A., Apweiler R., Blatter M. C., Estreicher A., Gasteiger E., Martin M. J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 365—370. — PMID 12520024.
- ↑ 1 2 Bairoch A., Apweiler R. The SWISS-PROT protein sequence data bank and its new supplement TREMBL. (англ.) // Nucleic acids research. — 1996. — Vol. 24, no. 1. — P. 21—25. — PMID 8594581.
- ↑ Bairoch A. Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 1. — P. 48—64. — PMID 10812477.
- ↑ Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch Архивная копия от 12 июля 2010 на Wayback Machine». Protéines à la Une Архивная копия от 21 июня 2011 на Wayback Machine, August 2006. ISSN 1660-9824.
- ↑ Dayhoff, Margaret O. Atlas of protein sequence and structure (неопр.). — Silver Spring, Md: National Biomedical Research Foundation, 1965.
- ↑ UniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html Архивная копия от 29 мая 2010 на Wayback Machine)
- ↑ UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Архивная копия от 1 октября 2015 на Wayback Machine)
- ↑ 1 2 How do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45 Архивная копия от 13 декабря 2013 на Wayback Machine)
- ↑ Apweiler R., Bairoch A., Wu C. H., Barker W. C., Boeckmann B., Ferro S., Gasteiger E., Huang H., Lopez R., Magrane M., Martin M. J., Natale D. A., O'Donovan C., Redaschi N., Yeh L. S. UniProt: the Universal Protein knowledgebase. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. D115–119. — doi:10.1093/nar/gkh131. — PMID 14681372.
- ↑ Where do UniProtKB sequences come from (англ.). http://www.uniprot.org/faq/37.+Дата обращения: 16 апреля 2014. Архивировано 15 декабря 2013 года.
- ↑ Leinonen R., Diez F. G., Binns D., Fleischmann W., Lopez R., Apweiler R. UniProt archive. (англ.) // Bioinformatics. — 2004. — Vol. 20, no. 17. — P. 3236—3237. — doi:10.1093/bioinformatics/bth191. — PMID 15044231.
- ↑ 1 2 Suzek B. E., Huang H., McGarvey P., Mazumder R., Wu C. H. UniRef: comprehensive and non-redundant UniProt reference clusters. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 10. — P. 1282—1288. — doi:10.1093/bioinformatics/btm098. — PMID 17379688.
- ↑ 1 2 Li W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. (англ.) // Bioinformatics. — 2001. — Vol. 17, no. 3. — P. 282—283. — PMID 11294794.
- ↑ About UniRef=http://www.uniprot.org/uniref/ . (недоступная ссылка)
- ↑ UniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/)
- ↑ 1 2 Yooseph S., Sutton G., Rusch D. B., Halpern A. L., Williamson S. J., Remington K., Eisen J. A., Heidelberg K. B., Manning G., Li W., Jaroszewski L., Cieplak P., Miller C. S., Li H., Mashiyama S. T., Joachimiak M. P., van Belle C., Chandonia J. M., Soergel D. A., Zhai Y., Natarajan K., Lee S., Raphael B. J., Bafna V., Friedman R., Brenner S. E., Godzik A., Eisenberg D., Dixon J. E., Taylor S. S., Strausberg R. L., Frazier M., Venter J. C. The Sorcerer II Global Ocean Sampling expedition: expanding the universe of protein families. (англ.) // Public Library of Science Biology. — 2007. — Vol. 5, no. 3. — P. e16. — doi:10.1371/journal.pbio.0050016. — PMID 17355171.
- ↑ Brunak S., Danchin A., Hattori M., Nakamura H., Shinozaki K., Matise T., Preuss D. Nucleotide sequence database policies. (англ.) // Science (New York, N.Y.). — 2002. — Vol. 298, no. 5597. — P. 1333. — PMID 12436968.
- ↑ The universal protein resource (UniProt). (англ.) // Nucleic acids research. — 2008. — Vol. 36. — P. D190–195. — doi:10.1093/nar/gkm895. — PMID 18045787.
- ↑ Uniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ (недоступная ссылка))