
Молекуля́рная биоло́гия — наука, академическая дисциплина, раздел биологии, изучающий структуру, взаимодействие молекул и макромолекулярных систем, участвующих в биологических процессах живых организмов, молекулярные основы наследственности и синтеза белка.

Биоинформа́тика — междисциплинарная область, объединяющая общую биологию, молекулярную биологию, кибернетику, генетику, химию, компьютерные науки, математику и статистику. Крупномасштабные биологические проблемы, требующие анализа больших объёмов данных, решаются биоинформатикой с вычислительной точки зрения. Биоинформатика главным образом включает в себя изучение и разработку компьютерных методов и направлена на получение, анализ, хранение, организацию и визуализацию биологических данных.

BLAST — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: Стивен Альтшуль, Уоррен Гиш, Вебб Миллер, Юджин Майерс и Дэвид Липман в системе Национальных институтов здравоохранения США. Первая публикация с описанием программы вышла в Журнале молекулярной биологии в 1990 году.
Вычислительная биология — это междисциплинарный подход, использующий достижения информатики, прикладной математики и статистики для решения проблем, поставляемых биологией. Главными областями в биологии, которые применяют такие методы, являются:
- Биоинформатика — применяет машинные алгоритмы и статистические методы к наборам биологических данных, состоящих, как правило, из большого числа ДНК, РНК и белковых последовательностей. Если говорить о конкретных примерах, то это сравнение последовательностей, поиск генов и предсказание экспрессии генов. Это очень большая научная область; термин «вычислительная биология» часто выступает как синоним для биоинформатики, что не совсем корректно.
- Вычислительное биомоделирование, подраздел биокибернетики, занимающаяся построением вычислительных моделей биологических систем.
- Вычислительная геномика, подраздел геномики, который изучает геномы клеток и организмов с помощью высокопроизводительного геномного секвенирования, и который использует метод ДНК-микрочипов для статистического анализа выраженных в конкретных типах клеток генов.
- Молекулярное моделирование, область исследований, которая привлекает теоретические и вычислительные методы для моделирования или имитации поведения молекул, причём молекул в самом широком смысле — состоящих от нескольких атомов и до «гигантских» биологических цепочек.
- Системная биология, ставящая целью моделирование полномасштабных биологических сетей взаимодействия, часто использует дифференциальные уравнения.
- Предсказание структур белков и структурная геномика — делают попытки систематически вычислять точные трёхмерные модели структур белков, которые ещё не были получены экспериментальным путём.
- Вычислительные подразделы биохимии и биофизики, широко использующие структурное моделирование и имитационные методы, такие как молекулярная динамика или метод выборки Больцмана, в попытке пролить свет на кинетику и термодинамику функций белков.
- Нейробиология — научная дисциплина, изучающая роль нейронных сетей в работе мозга. Теоретические основы нейробиологии изложил канадский ученый Дональд Хебб в работе The Organization of Behaviour (1949).

Метагено́мика — раздел молекулярной генетики, в котором изучается генетический материал, полученный из образцов окружающей среды. Метагеномика изучает набор генов всех микроорганизмов, находящихся в образце среды, — метагеном. Метагеномный анализ позволяет определить видовое разнообразие исследуемого образца без необходимости выделения и культивирования микроорганизмов.
«Генная онтология» — биоинформатический проект, посвященный созданию унифицированной терминологии для аннотации генов и генных продуктов всех биологических видов.

Мно́жественное выра́внивание после́довательностей — выравнивание трёх и более биологических последовательностей, обычно белков, ДНК или РНК. В большинстве случаев предполагается, что входной набор последовательностей имеет эволюционную связь. Используя множественное выравнивание, можно оценить эволюционное происхождение последовательностей, проведя филогенетический анализ.
Выра́внивание после́довательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи. Выровненные последовательности оснований нуклеотидов или аминокислот обычно представляются в виде строк матрицы. Добавляются разрывы между основаниями таким образом, чтобы одинаковые или похожие элементы были расположены в следующих друг за другом столбцах матрицы.

UGENE — свободное биоинформационное программное обеспечение.
Секвенирование нового поколения — группа методов определения нуклеотидной последовательности ДНК и РНК для получения формального описания её первичной структуры. Технология методов секвенирования нового поколения позволяет «прочитать» единовременно сразу несколько участков генома, что является главным отличием от более ранних методов секвенирования. NGS осуществляется с помощью повторяющихся циклов удлинения цепи, индуцированного полимеразой, или многократного лигирования олигонуклеотидов. В ходе NGS могут генерироваться до сотен мегабаз и гигабаз нуклеотидных последовательностей за один рабочий цикл.

Шами́ль Раши́дович Сюня́ев — профессор биомедицинской информатики и профессор медицины Гарвардской медицинской школы, руководитель исследовательской лаборатории клиники «Бригам энд Вименс» , ассоциированный член Объединённого института Гарвардского университета и Массачусетского технологического института.

Ensembl — совместный научный проект Европейского института биоинформатики и Института Сенгера. Основной задачей этого проекта является обеспечение специалистов интегрированным доступом к базам данных, касающихся строения геномов более 50 видов позвоночных, включая человека, мышь, крысу, рыбку Данио-рерио и др. Проект был запущен в 1999 году перед завершением проекта «Геном человека».

UniProt — открытая база данных последовательностей белков. Консорциум UniProt действует с 2003 года. Единая база данных UniProt была создана путём объединения нескольких баз. UniProt состоит из четырёх крупных баз данных и охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.
Моти́в в молекулярной биологии — относительно короткая последовательность нуклеотидов или аминокислот, слабо меняющаяся в процессе эволюции и, по крайней мере предположительно, имеющая определённую биологическую функцию. Под мотивом иногда подразумевают не конкретную последовательность, а каким-либо образом описанный спектр последовательностей, каждая из которых способна выполнять определённую биологическую функцию данного мотива.
KEGG — веб-ресурс, предоставляющий доступ к ряду биологических баз данных и инструментам для анализа биологических и медицинских данных, созданный в 1995 году в рамках проекта «Геном человека». С момента создания интегрированная база данных KEGG значительно расширилась и на данный момент (2017) насчитывает шестнадцать баз данных, для удобства поиска разделенных на четыре категории: системная информация, геномная информация, химическая информация и информация, связанная непосредственно со здоровьем человека. Также KEGG предоставляет ряд инструментов для удобной работы с базами данных и анализа хранящейся в них информации.

STRING — база данных и веб-ресурс для поиска информации об известных и предсказанных белок-белковых взаимодействиях.
Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме: белковых генов и генов некодирующих РНК, промоторов, энхансеров и прочее.
Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции в последовательности нуклеотидов ДНК при помощи компьютерных алгоритмов. Сайты связывания представляют собой короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований, имеющие высокое сродство к факторам транскрипции. Эти короткие последовательности ДНК называются мотивами. Аналогично при помощи компьютерных алгоритмов ищутся сайты связывания кофакторов, полимераз, сайты сплайсинга и повторяющиеся элементы в ДНК. Обнаружение мотивов позволяет лучше понять регуляцию транскрипции, сплайсинг мРНК и образование белковых комплексов.
Предсказа́ние фу́нкции белка́ — определение биологической роли белка и значения в контексте клетки. Предсказание функций проводится для плохо изученных белков или для гипотетических белков, предсказанных на основе данных геномных последовательностей. Источником информации для предсказания могут служить гомология нуклеотидных последовательностей, профили экспрессии генов, доменная структура белков, интеллектуальный анализ текстов публикаций, филогенетические и фенотипические профили, белок-белковые взаимодействия.
Протеогеномика — это область биологических исследований, в которой используется сочетание протеомики, геномики и транскриптомики, с целью обнаружения и идентификации пептидов. Протеогеномика применяется для идентификации новых пептидов путем сравнения спектров МС/МС с базой данных белков, которая была получена из геномной и транскриптомной информации. Протеогеномика часто относится к исследованиям, использующим протеомную информацию, полученную, например, методом масс-спектрометрии, для улучшения аннотаций генома. Геномика изучает ДНК и генетический код целых организмов, в то время как транскриптомика имеет дело с последовательностями РНК и транскриптов. Протеомика использует тандемную масс-спектрометрию и жидкостную хроматографию для определения и изучения функций белков. Протеомика используется для обнаружения всех белков, экспрессируемых в организме, известных как его протеом. Нерешённая проблема протеомики заключается в том, что она основывается на предположении, что современные модели генов верны и что правильные последовательности белка можно найти с помощью базы данных эталонных последовательностей; Однако это не всегда так, поскольку некоторые пептиды не могут быть найдены в базах данных. Кроме того, новые белковые последовательности могут возникать в результате мутаций. Данная проблема может быть решена с использованием протеомных, геномных и транскриптомных данных. Совместное использование методов протеомики и геномики привело к появлению протеогеномики, которая выделилась в самостоятельную область в 2004 году.