Предсказание генов
Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме: белковых генов и генов некодирующих РНК, промоторов, энхансеров и прочее.
Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками, которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования[англ.], предсказание генов стало рутинной задачей в биоинформатике.
Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе[1], хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности.
Предсказание генов — один из ключевых этапов в аннотации генома[англ.] вида, следующий за маскированием повторов и оценкой качества его сборки[2].
Существует множество алгоритмов, разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio) и смешанный[3].
Эмпирический метод
Эмпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК, белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов[3].
Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома[4].
Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными, чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов, но не всегда дают информацию о точной структуре гена[3].
Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу (экзон-интронной структуры для генов эукариот), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены[3].
Неэмпирические методы
Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio-предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели. Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, полипиримидиновые тракты[англ.], стартовые и стоп-кодоны. Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов[5].
Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого[4].
Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены[3].
У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 (Прибнов-бокс), которые легко обнаружить, а также сайты связывания транскрипционных факторов. Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований, заканчивающихся стоп-кодоном[6]. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью[6].
У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной[7].
Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка[8]. В других программах, как например, mSplicer[9], CONTRAST[10], или mGene[11] применяется машинное обучение и метод опорных векторов. Они строят различающую модель[англ.] с применением методов НММ, SVM или марсковских случайных полей[англ.] (от англ. Conditional random field, CRF) для составления функции вероятности наличия гена[8].
Другие сигналы
Для предсказания генов используются статистики k-меров[англ.], GC-состав, равномерность, энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование закодированной цифрами ДНК и параметры Z-кривой[англ.][12].
Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов.[13][14][15][16][17]
Нейронные сети
Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16965 генов специфичность и чувствительность распознавания превысили 80 %[18].
Совмещённый подход
Совмещенный подход является наиболее широко используемым, так как он сочетает лучшее из эмпирического и неэмпирического методов, дополняя результаты ab initio внешней информацией. Программы MAKER[19] и MAKER-P могут быть применены для аннотирования генов во вновь собранных геномах, обновления или объединения устаревших аннотаций в свете новых данных. MAKER и MAKER-P могут быстро аннотировать геномы любого размера и масштабировать в соответствии с доступными вычислительными ресурсами[20].
MAKER и MAKER-P комментируют и маскируют повторяющиеся элементы в геноме и сопоставляют данные о белках и РНК со сборкой с учетом сплайсинга для точной идентификации сайтов сплайсинга. Они также запускают несколько предсказателей генов ab initio, сравнивают все предсказанные генные модели с данными о выравнивании РНК и белков, а затем пересматривают модели генов ab initio в свете этих данных. Модели генов с наилучшей поддержкой выбираются с использованием показателя качества, называемого расстояние редактирования аннотации (англ. annotation edition distance, AED)[20].
MAKER и MAKER-P являются высокопараллельными приложениями с поддержкой интерфейса передачи сообщений (англ. message раss interface, MPI); это позволяет им эффективно использовать несколько процессоров и аннотировать крупные геномы млекопитающих и растений буквально за несколько часов[20].
MAKER был разработан как простой в использовании конвейер аннотаций для геномов модельных организмов. Главная цель MAKER состояла в том, чтобы дать возможность небольшим независимым исследовательским группам без обширного опыта или ресурсов в области биоинформатики комментировать геномы[20].
MAKER 2 является обратно совместимым расширением, улучшил возможности генного поиска; предлагая динамические средства для поиска генов и предоставляя новые средства для контроля качества с использованием AED, а также средства для обновления устаревших аннотаций в свете новых данных о транскриптах и белках[20].
MAKER-P предоставляет средства для аннотирования сложных геномов растений, а также для автоматического пересмотра, контроля качества и управления существующими аннотациями генома. MAKER-P также предоставляет средства для аннотации генов некодирующих РНК и аннотации псевдогенов. MAKER-P значительно быстрее, чем другие конвейеры аннотирования генома, включая оригинальный MAKER2, что позволяет масштабировать его даже до самых крупных геномов растений[20].
Предсказание и компьютерный анализ экзон-интронной структуры генов
Обычно система предсказания экзон-интронной структуры базируется на следующих соображениях: во-первых, в подавляющем большинстве случаев интроны начинаются и заканчиваются консервативными динуклеотидами: GТ — в начале интрона и АG — в его конце. Во-вторых, в областях, прилегающих к экзон-интронным границам, есть определенное предпочтение нуклеотидов в других позициях, что позволяет строить разного рода профили для распознавания границ. Однако построенные таким образом распознающие правила все еще достаточно слабы. В-третьих, если нас интересует только кодирующая часть гена, то для более чёткого выбора сайтов сплайсинга можно использовать соображение, что на том, что получится после вырезания интронов, не должно быть стоп-кодонов. Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %. В настоящее время наиболее популярная техника решения задачи поиска белоккодирующих областей основана на использовании скрытых Марковских цепей, учитывающих все перечисленные соображения[21].
Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более. Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу, игнорируя альтернативный сплайсинг[21].
Сравнительная геномика
Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики. Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST[10].
Множественные информанты
Программа TWINSCAN для поиска ортологичных генов учитывает только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества источников данных приводит к значительному улучшению точности[22].
Программа CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы[23].
Предсказание псевдогенов
Поиск псевдогенов — основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.
Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК[24][25].
Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как отсутствие интронов и поли(А)-хвостов[26].
Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ)[27].
Метагеномное предсказание генов
Метагеномные программы делятся на те, что используют принципы ab initio (программа GLIMMER-MG[28]) или сравнительную геномику (программа MEGAN5[29]).
GLIMMER-MG — расширение GLIMMER, полагающееся в основном на подходе ab initio и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST[30].
В основе MEGAN5[31] лежат методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов[31].
Примечания
- ↑ Sleator R. D. An overview of the current status of eukaryote gene prediction strategies. (англ.) // Gene. — 2010. — Vol. 461, no. 1-2. — P. 1—4. — doi:10.1016/j.gene.2010.04.008. — PMID 20430068.
- ↑ Yandell M., Ence D. A beginner's guide to eukaryotic genome annotation. (англ.) // Nature reviews. Genetics. — 2012. — Vol. 13, no. 5. — P. 329—342. — doi:10.1038/nrg3174. — PMID 22510764.
- ↑ 1 2 3 4 5 Dominguez Del Angel V., Hjerde E., Sterck L., Capella-Gutierrez S., Notredame C., Vinnere Pettersson O., Amselem J., Bouri L., Bocs S., Klopp C., Gibrat J. F., Vlasova A., Leskosek B. L., Soler L., Binzer-Panchal M., Lantz H. Ten steps to get started in Genome Assembly and Annotation. (англ.) // F1000Research. — 2018. — Vol. 7. — PMID 29568489.
- ↑ 1 2 Do J. H., Choi D. K. Computational approaches to gene prediction. (англ.) // Journal Of Microbiology (Seoul, Korea). — 2006. — April (vol. 44, no. 2). — P. 137—144. — PMID 16728949.
- ↑ Wang Z., Chen Y., Li Y. A brief review of computational gene prediction methods. (англ.) // Genomics, Proteomics & Bioinformatics. — 2004. — November (vol. 2, no. 4). — P. 216—221. — PMID 15901250.
- ↑ 1 2 Rogozin I. B., Makarova K. S., Natale D. A., Spiridonov A. N., Tatusov R. L., Wolf Y. I., Yin J., Koonin E. V. Congruent evolution of different classes of non-coding DNA in prokaryotic genomes. (англ.) // Nucleic acids research. — 2002. — Vol. 30, no. 19. — P. 4264—4271. — PMID 12364605.
- ↑ Stewart Scherer. A Short Guide to the Human Genome. — New York: Cold Spring Harbor, 2008. — P. 32.
- ↑ 1 2 Korf I. Gene finding in novel genomes. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 59. — doi:10.1186/1471-2105-5-59. — PMID 15144565.
- ↑ Rätsch G., Sonnenburg S., Srinivasan J., Witte H., Müller K. R., Sommer R. J., Schölkopf B. Improving the Caenorhabditis elegans genome annotation using machine learning. (англ.) // Public Library of Science for Computational Biology. — 2007. — Vol. 3, no. 2. — P. e20. — doi:10.1371/journal.pcbi.0030020. — PMID 17319737.
- ↑ 1 2 Gross S. S., Do C. B., Sirota M., Batzoglou S. CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction. (англ.) // Genome biology. — 2007. — Vol. 8, no. 12. — P. 269. — doi:10.1186/gb-2007-8-12-r269. — PMID 18096039.
- ↑ Schweikert G., Behr J., Zien A., Zeller G., Ong C. S., Sonnenburg S., Rätsch G. mGene.web: a web service for accurate computational gene finding. (англ.) // Nucleic acids research. — 2009. — Vol. 37. — P. 312—316. — doi:10.1093/nar/gkp479. — PMID 19494180.
- ↑ Saeys Y., Rouzé P., Van de Peer Y. In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 4. — P. 414—420. — doi:10.1093/bioinformatics/btl639. — PMID 17204465.
- ↑ Hiller M., Pudimat R., Busch A., Backofen R. Using RNA secondary structures to guide sequence motif finding towards single-stranded regions. (англ.) // Nucleic acids research. — 2006. — Vol. 34, no. 17. — P. e117. — doi:10.1093/nar/gkl544. — PMID 16987907.
- ↑ Patterson D. J., Yasuhara K., Ruzzo W. L. Pre-mRNA secondary structure prediction aids splice site prediction. (англ.) // Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. — 2002. — P. 223—234. — PMID 11928478.
- ↑ Marashi S. A., Goodarzi H., Sadeghi M., Eslahchi C., Pezeshk H. Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks. (англ.) // Computational biology and chemistry. — 2006. — Vol. 30, no. 1. — P. 50—57. — doi:10.1016/j.compbiolchem.2005.10.009. — PMID 16386465.
- ↑ Marashi S. A., Eslahchi C., Pezeshk H., Sadeghi M. Impact of RNA structure on the prediction of donor and acceptor splice sites. (англ.) // BMC bioinformatics. — 2006. — Vol. 7. — P. 297. — doi:10.1186/1471-2105-7-297. — PMID 16772025.
- ↑ Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. Архивировано из оригинала (PDF) 30 мая 2009. Дата обращения: 4 апреля 2016.
- ↑ Johansen ∅ystein, Ryen Tom, Eftes∅l Trygve, Kjosmoen Thomas, Ruoff Peter. Splice Site Prediction Using Artificial Neural Networks (англ.) // Computational Intelligence Methods for Bioinformatics and Biostatistics. — 2009. — P. 102—113. — ISBN 9783642025037. — ISSN 0302-9743. — doi:10.1007/978-3-642-02504-4_9.
- ↑ Программа MAKER . Дата обращения: 4 апреля 2016. Архивировано 3 апреля 2016 года.
- ↑ 1 2 3 4 5 6 Campbell M. S., Holt C., Moore B., Yandell M. Genome Annotation and Curation Using MAKER and MAKER-P. (англ.) // Current Protocols In Bioinformatics. — 2014. — 12 December (vol. 48). — P. 4—11. — doi:10.1002/0471250953.bi0411s48. — PMID 25501943.
- ↑ 1 2 А. А. Миронов, М. С. Гельфанд. ПРЕДСКАЗАНИЕ И КОМПЬЮТЕРНЫЙ АНАЛИЗ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ ЧЕЛОВЕКА. — 2004. — С. 82-91.
- ↑ Программа TWINSCAN . (недоступная ссылка)
- ↑ Программа CONTRAST . Дата обращения: 4 апреля 2016. Архивировано 17 марта 2016 года.
- ↑ Alexander R. P., Fang G., Rozowsky J., Snyder M., Gerstein M. B. Annotating non-coding regions of the genome. (англ.) // Nature reviews. Genetics. — 2010. — Vol. 11, no. 8. — P. 559—571. — doi:10.1038/nrg2814. — PMID 20628352.
- ↑ Svensson O., Arvestad L., Lagergren J. Genome-wide survey for biologically functional pseudogenes. (англ.) // Public Library of Science for Computational Biology. — 2006. — Vol. 2, no. 5. — P. e46. — doi:10.1371/journal.pcbi.0020046. — PMID 16680195.
- ↑ Zhang Z., Gerstein M. Large-scale analysis of pseudogenes in the human genome. (англ.) // Current opinion in genetics & development. — 2004. — Vol. 14, no. 4. — P. 328—335. — doi:10.1016/j.gde.2004.06.003. — PMID 15261647.
- ↑ Lerat E., Ochman H. Psi-Phi: exploring the outer limits of bacterial pseudogenes. (англ.) // Genome research. — 2004. — Vol. 14, no. 11. — P. 2273—2278. — doi:10.1101/gr.2925604. — PMID 15479949.
- ↑ Программа GLIMMER-MG . Дата обращения: 4 апреля 2016. Архивировано 7 апреля 2016 года.
- ↑ Программа MEGAN5 . Дата обращения: 4 апреля 2016. Архивировано из оригинала 29 марта 2016 года.
- ↑ Kelley D. R., Liu B., Delcher A. L., Pop M., Salzberg S. L. Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering. (англ.) // Nucleic acids research. — 2012. — Vol. 40, no. 1. — P. e9. — doi:10.1093/nar/gkr1067. — PMID 22102569.
- ↑ 1 2 Huson D. H., Mitra S., Ruscheweyh H. J., Weber N., Schuster S. C. Integrative analysis of environmental sequences using MEGAN4. (англ.) // Genome research. — 2011. — Vol. 21, no. 9. — P. 1552—1560. — doi:10.1101/gr.120618.111. — PMID 21690186.