Поиско́вая систе́ма — алгоритмы и реализующая их совокупность компьютерных программ, предоставляющая пользователю возможность быстрого доступа к необходимой ему информации при помощи поиска в обширной коллекции доступных данных. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.
HTTP — протокол прикладного уровня передачи данных, изначально — в виде гипертекстовых документов в формате HTML, в настоящее время используется для передачи произвольных данных.
Полнотекстовый поиск — автоматизированный поиск документов, при котором поиск ведётся не по именам документов, а по их содержимому, всему или существенной части. Многие веб-сайты и прикладные программы предоставляют возможности полнотекстового поиска. Некоторые системы веб-поиска, такие как AltaVista, используют методы полнотекстового поиска, в то время как другие индексируют только часть веб-страниц, проверенных их системами индексации.
Дорвей или входная страница — вид поискового спама, веб-страница, специально оптимизированная под конкретный запрос или группу поисковых запросов, с целью её попадания на высокие места в результатах поиска по этим запросам и дальнейшего перенаправления посетителей на другой сайт или страницу.
Вопросно-ответная система — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.
Информацио́нный по́иск — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске.
Извлечение информации — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.
Интеллектуальный анализ текстов — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных», что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.
Организация по запрещению химического оружия — международная организация, созданная при поддержке ООН 29 апреля 1997 года, после вступления в силу Конвенции о запрещении химического оружия, открытой к подписанию в январе 1993 года. В 2013 году ОЗХО награждена Нобелевской премией мира.
Российский семинар по оценке методов информационного поиска (РОМИП) — это открытый семинар, проводимый ежегодно с 2003 года группой российских исследователей и разработчиков, занимающихся информационным поиском. Основная цель семинара — создание плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией. РОМИП — некоммерческий семинар: затраты на подготовку и проведение оценки возмещаются за счет грантов РФФИ и взносов участников.
Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование, совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.
Обуче́ние ранжи́рованию — это класс задач машинного обучения с учителем, заключающихся в автоматическом подборе ранжирующей модели по обучающей выборке, состоящей из множества списков и заданных частичных порядков на элементах внутри каждого списка. Частичный порядок обычно задаётся путём указания оценки для каждого элемента. Цель ранжирующей модели — наилучшим образом приблизить и обобщить способ ранжирования в обучающей выборке на новые данные.
Okapi BM25 — функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу. Она основывается на вероятностной модели, разработанной в 1970-х и 1980-х годах Стивеном Робертсоном, Карен Спарк Джонс и другими.
Релева́нтность в информационном поиске — соответствие интента, заложенного в запросе и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.
Ана́лиз плагиа́та — это компьютерные методы поиска и обнаружения плагиата.
Ранжи́рование — сортировка сайтов в поисковой выдаче, применяемая в поисковых системах. Существует множество факторов для ранжирования, среди которых можно отметить рейтинг сайта, количество и качество внешних ссылок, релевантность текста к поисковому запросу, на основании которых поисковая система формирует список сайтов в поисковой выдаче. Алгоритм ранжирования того или иного поисковика меняется в процессе его функционирования.
Scottish Corpus of Text and Speech — Национальный корпус шотландского (германского) языка, созданный в 2004 году группой экспертов: членами проекта «Английский язык» и проекта «Стелла» Школы Критических Исследований в Университете Глазго.
AskNet — российская интеллектуальная метапоисковая система, первая вопросно-ответная система в Рунете. Вопросно-ответная поисковая система система AskNet предназначена для поиска текстовой информации по запросу пользователя на естественном языке. В настоящее время поиск ответов на вопросы пользователей поддерживается для русско- и (или) англоязычных запросов пользователей и текстов. Проект стартовал в 1999 году в ООО «Стокона». Вопросно-ответная поисковая система AskNet Search принимала участие и заняла первое место в тестах дорожки вопросно-ответного поиска конференции РОМИП в 2006 году.
Неструктури́рованные да́нные — данные, которые не соответствуют заранее определённой модели данных, и, как правило, представлены в форме текста с датами, цифрами, фактами, расположенными в нём в произвольной форме. Такие данные трудно анализировать, особенно при помощи традиционных программ, предназначенных для работы со структурированными данными.
Среднеобратный ранг (MRR) — статистическая оценка откликов процесса на запросы, упорядоченных по вероятности и правильности. Характеризует эффективность информационного поиска. Обратный ранг в данном случае означает обратное число номера (ранга) первого правильного ответа в списке откликов. Среднеобратный ранг определяется как среднее обратных рангов по всем запросам Q: