Эта статья входит в число добротных статей

Предсказание функции белка

Перейти к навигацииПерейти к поиску

Предсказа́ние фу́нкции белка́ — определение биологической роли белка и значения в контексте клетки. Предсказание функций проводится для плохо изученных белков или для гипотетических белков, предсказанных на основе данных геномных последовательностей. Источником информации для предсказания могут служить гомология нуклеотидных последовательностей, профили экспрессии генов, доменная структура белков, интеллектуальный анализ текстов публикаций, филогенетические и фенотипические профили, белок-белковые взаимодействия.

Функция белка — очень широкий термин: роли белков варьируются от катализа биохимических реакций до передачи сигнала и клеточного транспорта[англ.], и один белок может играть определённую роль в нескольких клеточных процессах[1].

В целом, функцию можно рассматривать как «всё, что происходит с белком или с его помощью». Проект «Генная Онтология» предложил полезную классификацию функций, в основе которого лежит список (словарь) четко сформулированных терминов, разделенных на три основные категории – молекулярные функции, биологические процессы и клеточные компоненты[2]. Из этой базы данных можно по названию белка или его идентификационному номеру найти присвоенные ему термины «Генной Онтологии» или аннотации, сделанные на основе расчётных или экспериментальных данных.

Несмотря на то что на сегодняшний день для экспериментального доказательства функций белка используются такие современные методы, как анализ микрочипов, РНК-интерференция и двугибридный анализ, технологии секвенирования продвинулись настолько, что темпы экспериментально доказательной характеристики открытых белков сильно отстают от темпов открытия новых последовательностей[3]. Поэтому аннотирование новых белковых последовательностей будет в основном осуществляться путём предсказания на основе вычислительных методов, так как таким образом можно осуществлять характеристику последовательностей гораздо быстрее и одновременно по нескольким генам/белкам. Первые методики предсказания функций были основаны на сходстве гомологичных белков с известными функциями (так называемое предсказание функций, основанное на гомологии). Дальнейшее развитие методов привело к появлению предсказаний на основе геномного контекста и на основе структуры белковой молекулы, что позволило расширить спектр получаемых данных и комбинировать методики, основанные на разных типах данных, для получения наиболее полной картины роли белка[3]. Ценность и производительность вычислительного предсказания функции генов подчеркивает тот факт, что по состоянию на 2010 год 98 % аннотаций Генной Онтологии были сделаны на основе автоматического извлечения из других баз аннотаций и только 0,6 % — на основе экспериментальных данных[4].

Методы предсказания функции белка

Методы, основанные на гомологии

Часть множественного выравнивания белковых последовательностей гемоглобина из четырых разных организмов. Белки, сходные по последовательности, могут иметь также и сходную функцию

Белки, имеющие сходные последовательности, как правило, являются гомологичными[5] и, стало быть, имеют сходную функцию. Поэтому в недавно секвенированных геномах белки обычно аннотируют по аналогии с последовательностями схожих белков из других геномов. Однако не всегда близкородственные белки выполняют одну и ту же функцию[6], например, дрожжевые белки Gal1 и Gal3 являются паралогами с 73 % и 92 % сходства, приобретшие в ходе эволюции очень разные функции: так, Gal1 является галактокиназой, а Gal3 — индуктором транскрипции[7]. К сожалению, нет четкого порога степени сходства по последовательности для безопасного предсказания функций; многие белки с одинаковой функцией имеют едва обнаруживаемые сходства, тогда как встречаются очень схожие по последовательности, но совершенно разные по функциям.

Методы, основанные на мотивах последовательностей

Развитие таких баз данных белковых доменов, как Pfam[8] позволяет находить в искомой последовательности уже известные домены для предположения возможных функций. В ресурсе dcGO[англ.][9] содержатся аннотации как к отдельным доменам, так и супра-доменам (т.е. комбинациям из двух или более последовательно расположенных доменов), что позволяет сделать предсказание более приближенным к реальности. Также, внутри самих белковых доменах содержатся более короткие характерные последовательности, связанные с определенными функциями (так называемые мотивы)[10], наличие которых в искомом белке можно определить поиском в базах данных мотивов, таких как PROSITE[англ.][11]. Мотивы также могут быть использованы для предсказания внутриклеточной локализации белка: наличие особых коротких сигнальных пептидов предопределяет, в какие органеллы белок будет транспортирован после синтеза, и было разработано множество ресурсов для определения таких сигнальных последовательностей[12], например, SignalP, который обновлялся несколько раз по мере развития методов[13]. Таким образом, некоторые особенности функции белков можно предсказать без сравнения с полноразмерными гомологичными последовательностями.

Методы, основанные на структуре белка

Пространственное выравнивание двух беловых токсинов рицина и абрина[англ.].

Поскольку 3D-структура белка, как правило, является более консервативной, чем белковая последовательность, сходство структур может указывать на сходство и функций белков. Было разработано много программ для поиска похожих укладок внутри базы данных белковых структур (Protein Data Bank)[14], например, FATCAT[15], CE[16], DeepAlign[17]. В случае, когда для искомой белковой последовательности нет решенной структуры, сначала составляют вероятную трехмерную модель последовательности, на основе которой в дальнейшем делается предсказание функции белка; так работает, например, сервер по предсказанию функции белка RaptorX. Во многих случаях вместо структуры всего белка, поиск ведется по структурам отдельных мотивов, содержащим, например, сайт связывания лиганда или активный сайт фермента. Для аннотации последних в новых белковых последовательностях была разработана база данных Catalytic Site Atlas[18].

Методы, основанные на геномном контексте

Многие из недавно появившихся методов прогнозирования основаны не на сравнении последовательностей или структуры, как описанные ранее, а на корреляции между новыми генами/белками и уже аннотированными: для каждого гена составляется филогенетический профиль (по наличию или отсутствию в различных геномах), которые затем сравнивают для установления функциональных связей (предполагается, что гены с одинаковыми профилями функциональны связаны друг с другом)[19]. В то время, как методы на основе гомологии часто используются для установления молекулярных функций, предсказание на основе геномного контекста может быть использовано для предположения биологического процесса, в котором участвует белок. Например, белки, участвующие в одном и том же пути передачи сигнала, имеют общий для всех видов геномный контекст.

Слияние генов

Когда два (или более) гена, кодирующие разные белки в одном организме, в процессе эволюции объединяются в один ген в другом организме, говорят, что произошло слияние генов (соответственно, при обратном процессе — разделение генов)[20]. Это явление было использовано при поиске гомологов для всех белковых последовательностей E. coli, когда обнаружилось, что более 6000 пар негомологичных друг другу последовательностей E. coli имеют общую гомологию с единичными генами в других геномах, что указывает на потенциальное взаимодействие между белками в каждой из пар, которое нельзя предсказать, отталкиваясь от одной лишь гомологии.

Колокализация/коэкспрессия

У прокариот в процессе эволюции часто сохраняются кластеры сближенных друг к другу генов, которые, как правило, кодируют белки, взаимодействующие между собой или входящих в один оперон. Поэтому, для предсказания функционального сходства между белками, по крайней мере, у прокариот, может быть использована близость расположения генов на хромосоме (метод, основанный на соседстве генов)[21]. Также в некоторых эукариотических геномах, включая Homo sapiens, для отдельных биологических путей было отмечено близкое расположение входящих в них генов[22], что с развитием методик может оказаться полезным при изучении белковых взаимодействий в эукариотах.

Гены, участвующие в одинаковых процессах, также часто транскрибируются совместно, поэтому можно предположить по ко-экспрессии с известными белками о сходной функции неаннотированного белка. На основании этого факта разрабатывают так называемые алгоритмы «вины в соучастии» (англ. guilt by association), которые используют для анализа больших объемов данных последовательностей и идентификации неизвестных белков по сходству с паттернами экспрессии уже известных генов[23][24]. В исследованиях «вины в соучастии» часто сравнивают группу генов-кандидатов с неизвестной функцией с целевой группой (например, с генами, четко ассоциированными с определенным заболеванием) и на основе собранных данных (например, ко-экспрессия генов, белок-белковые взаимодействия или филогенетические профили) классифицируют гены-кандидаты по степени сходства к целевой группе. К примеру, так как многие белки являются мультифункциональными, кодирующие их гены могут принадлежать одновременно сразу нескольким целевым группам, поэтому, такие гены будут чаще выявляться в исследованиях «вины в соучастии», и такие предсказания не являются специфичными.

С накоплением данных РНК-секвенирования, по которым можно оценить профили экспрессии изоформ белков, полученных путём альтернативного сплайсинга, были разработаны алгоритмы машинного обучения для прогнозирования функций на уровне изоформ[25].

Вычислительная топография растворителя

Вычислительная топография растворителя белка AMA1, полученная в результате работы сервера FTMAP, в ходе которой было симулировано взаимодействие поверхности с 16 различными типами зондов, в результате чего были определены места локализации скопления зондов на поверхности[26]

Одной из проблем, связанных с предсказанием функции белка, является обнаружение активного сайта, осложненное тем, что некоторые активные сайты не формируются до тех пор, пока белок не претерпевает конформационные изменения, вызванные связыванием малых молекул, например, молекул растворителя. Большинство белковых структур были получены методом рентгеноструктурного анализа, для которого требуется кристаллы чистого белка, в результате, в существующих трёхмерных моделях белков нельзя проследить конформационные изменения, необходимые для формирования активных сайтов. Вычислительная топография растворителя использует так называемые зонды (небольшие органические молекулы), которые в процессе компьютерной симуляции «перемещаются» по поверхности белка в поисках мест потенциального связывания и последующей кластеризации. Как правило, применяются несколько различных зондов с целью получения как можно большего числа различных конформационных структур «белок-зонд». Полученные структуры оценивают по средней свободной энергии. После множественных симуляций различными зондами место, где формируется наибольшее число кластеров, отождествляют с активным центром белка[27].

Этот метод представляет собой компьютерную адаптацию «мокрой» методики из статьи 1996 года. При наложении структур белка, полученных при растворении в различных органических растворителях, было обнаружено, что молекулы растворителя чаще всего скапливаются в активном центре белка. Эта работа была сделана с целью убрать оставшиеся молекулы воды, которые проявляются на картах электронной плотности, полученные рентгеноструктурным анализом: взаимодействуя с белком, они имеют тенденцию скапливаться в полярных областях белка. Это привело к идее промывать очищенный кристалл белка в различные растворители (такие как этанол, изопропанол) с целью установить в каком месте кластеризуются молекулы растворителя. Растворители можно выбирать из расчета с какими молекулами может взаимодействовать белок (например, выбор этанола в качестве зонда может отождествлять взаимодействие белка с серином, выбор изопропанола — с треонином, и т.д.). Очень важно, чтобы кристалл белка сохранял свою третичную структуру в каждом растворителе. После того, как процедуру промывания провели с несколькими растворителями, получают данные, на основе которых можно предположить потенциальные активные сайты белка[28].

Примечания

  1. Rost B., Liu J., Nair R., Wrzeszczynski K. O., Ofran Y. Automatic prediction of protein function. (англ.) // Cellular and molecular life sciences : CMLS. — 2003. — Vol. 60, no. 12. — P. 2637—2650. — doi:10.1007/s00018-003-3114-8. — PMID 14685688. [исправить]
  2. Ashburner M., Ball C. A., Blake J. A., Botstein D., Butler H., Cherry J. M., Davis A. P., Dolinski K., Dwight S. S., Eppig J. T., Harris M. A., Hill D. P., Issel-Tarver L., Kasarskis A., Lewis S., Matese J. C., Richardson J. E., Ringwald M., Rubin G. M., Sherlock G. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. (англ.) // Nature genetics. — 2000. — Vol. 25, no. 1. — P. 25—29. — doi:10.1038/75556. — PMID 10802651. [исправить]
  3. 1 2 Gabaldón T., Huynen M. A. Prediction of protein function and pathways in the genome era. (англ.) // Cellular and molecular life sciences : CMLS. — 2004. — Vol. 61, no. 7-8. — P. 930—944. — doi:10.1007/s00018-003-3387-y. — PMID 15095013. [исправить]
  4. du Plessis L., Skunca N., Dessimoz C. The what, where, how and why of gene ontology--a primer for bioinformaticians. (англ.) // Briefings in bioinformatics. — 2011. — Vol. 12, no. 6. — P. 723—735. — doi:10.1093/bib/bbr002. — PMID 21330331. [исправить]
  5. Reeck G. R., de Haën C., Teller D. C., Doolittle R. F., Fitch W. M., Dickerson R. E., Chambon P., McLachlan A. D., Margoliash E., Jukes T. H. "Homology" in proteins and nucleic acids: a terminology muddle and a way out of it. (англ.) // Cell. — 1987. — Vol. 50, no. 5. — P. 667. — PMID 3621342. [исправить]
  6. Whisstock J. C., Lesk A. M. Prediction of protein function from protein sequence and structure. (англ.) // Quarterly reviews of biophysics. — 2003. — Vol. 36, no. 3. — P. 307—340. — PMID 15029827. [исправить]
  7. Platt A., Ross H. C., Hankin S., Reece R. J. The insertion of two amino acids into a transcriptional inducer converts it into a galactokinase. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 2000. — Vol. 97, no. 7. — P. 3154—3159. — PMID 10737789. [исправить]
  8. Finn R. D., Mistry J., Tate J., Coggill P., Heger A., Pollington J. E., Gavin O. L., Gunasekaran P., Ceric G., Forslund K., Holm L., Sonnhammer E. L., Eddy S. R., Bateman A. The Pfam protein families database. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D211–222. — doi:10.1093/nar/gkp985. — PMID 19920124. [исправить]
  9. Fang H., Gough J. DcGO: database of domain-centric ontologies on functions, phenotypes, diseases and more. (англ.) // Nucleic acids research. — 2013. — Vol. 41. — P. D536–544. — doi:10.1093/nar/gks1080. — PMID 23161684. [исправить]
  10. Sleator R. D., Walsh P. An overview of in silico protein function prediction. (англ.) // Archives of microbiology. — 2010. — Vol. 192, no. 3. — P. 151—155. — doi:10.1007/s00203-010-0549-9. — PMID 20127480. [исправить]
  11. Sigrist C. J., Cerutti L., de Castro E., Langendijk-Genevaux P. S., Bulliard V., Bairoch A., Hulo N. PROSITE, a protein domain database for functional characterization and annotation. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D161–166. — doi:10.1093/nar/gkp885. — PMID 19858104. [исправить]
  12. Menne K. M., Hermjakob H., Apweiler R. A comparison of signal sequence prediction methods using a test set of signal peptides. (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 8. — P. 741—742. — PMID 11099261. [исправить]
  13. Petersen T. N., Brunak S., von Heijne G., Nielsen H. SignalP 4.0: discriminating signal peptides from transmembrane regions. (англ.) // Nature methods. — 2011. — Vol. 8, no. 10. — P. 785—786. — doi:10.1038/nmeth.1701. — PMID 21959131. [исправить]
  14. Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N., Bourne P. E. The Protein Data Bank. (англ.) // Nucleic acids research. — 2000. — Vol. 28, no. 1. — P. 235—242. — PMID 10592235. [исправить]
  15. Ye Y., Godzik A. FATCAT: a web server for flexible structure comparison and structure similarity searching. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. 582—585. — doi:10.1093/nar/gkh430. — PMID 15215455. [исправить]
  16. Shindyalov I. N., Bourne P. E. Protein structure alignment by incremental combinatorial extension (CE) of the optimal path. (англ.) // Protein engineering. — 1998. — Vol. 11, no. 9. — P. 739—747. — PMID 9796821. [исправить]
  17. Wang S., Ma J., Peng J., Xu J. Protein structure alignment beyond spatial proximity. (англ.) // Scientific reports. — 2013. — Vol. 3. — P. 1448. — doi:10.1038/srep01448. — PMID 23486213. [исправить]
  18. Porter C. T., Bartlett G. J., Thornton J. M. The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. D129–133. — doi:10.1093/nar/gkh028. — PMID 14681376. [исправить]
  19. Eisenberg D., Marcotte E. M., Xenarios I., Yeates T. O. Protein function in the post-genomic era. (англ.) // Nature. — 2000. — Vol. 405, no. 6788. — P. 823—826. — doi:10.1038/35015694. — PMID 10866208. [исправить]
  20. Marcotte E. M., Pellegrini M., Ng H. L., Rice D. W., Yeates T. O., Eisenberg D. Detecting protein function and protein-protein interactions from genome sequences. (англ.) // Science (New York, N.Y.). — 1999. — Vol. 285, no. 5428. — P. 751—753. — PMID 10427000. [исправить]
  21. Overbeek R., Fonstein M., D'Souza M., Pusch G. D., Maltsev N. The use of gene clusters to infer functional coupling. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 1999. — Vol. 96, no. 6. — P. 2896—2901. — PMID 10077608. [исправить]
  22. Lee J. M., Sonnhammer E. L. Genomic gene clustering analysis of pathways in eukaryotes. (англ.) // Genome research. — 2003. — Vol. 13, no. 5. — P. 875—882. — doi:10.1101/gr.737703. — PMID 12695325. [исправить]
  23. Walker M. G., Volkmuth W., Sprinzak E., Hodgson D., Klingler T. Prediction of gene function by genome-scale expression analysis: prostate cancer-associated genes. (англ.) // Genome research. — 1999. — Vol. 9, no. 12. — P. 1198—1203. — PMID 10613842. [исправить]
  24. Klomp J. A., Furge K. A. Genome-wide matching of genes to cellular roles using guilt-by-association models derived from single sample analysis. (англ.) // BMC research notes. — 2012. — Vol. 5. — P. 370. — doi:10.1186/1756-0500-5-370. — PMID 22824328. [исправить]
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Systematically Differentiating Functions for Alternatively Spliced Isoforms through Integrating RNA-seq Data // PLOS Computational Biology. — 2013. — Vol. 9, no. 11. — P. e1003314. — doi:10.1371/journal.pcbi.1003314. — PMID 24244129. [исправить]
  26. Wang G., MacRaild C. A., Mohanty B., Mobli M., Cowieson N. P., Anders R. F., Simpson J. S., McGowan S., Norton R. S., Scanlon M. J. Molecular insights into the interaction between Plasmodium falciparum apical membrane antigen 1 and an invasion-inhibitory peptide. (англ.) // Public Library of Science ONE. — 2014. — Vol. 9, no. 10. — P. e109674. — doi:10.1371/journal.pone.0109674. — PMID 25343578. [исправить]
  27. Clodfelter K. H., Waxman D. J., Vajda S. Computational solvent mapping reveals the importance of local conformational changes for broad substrate specificity in mammalian cytochromes P450. (англ.) // Biochemistry. — 2006. — Vol. 45, no. 31. — P. 9393—9407. — doi:10.1021/bi060343v. — PMID 16878974. [исправить]
  28. Mattos C., Ringe D. Locating and characterizing binding sites on proteins. (англ.) // Nature biotechnology. — 1996. — Vol. 14, no. 5. — P. 595—599. — doi:10.1038/nbt0596-595. — PMID 9630949. [исправить]

Ссылки