Поиско́вая систе́ма — алгоритмы и реализующая их совокупность компьютерных программ, предоставляющая пользователю возможность быстрого доступа к необходимой ему информации при помощи поиска в обширной коллекции доступных данных. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.
HTTP — протокол прикладного уровня передачи данных, изначально — в виде гипертекстовых документов в формате HTML, в настоящее время используется для передачи произвольных данных.
Ро́бот, или бот, а также интернет-бот и тому подобное — специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через интерфейсы, предназначенные для людей.
Поиско́вый ро́бот — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.
Сайт, или веб-сайт, также веб-узел, — одна или несколько логически связанных между собой веб-страниц; также место расположения контента сервера. Обычно сайт в Интернете представляет собой массив связанных данных, имеющий уникальный адрес и воспринимаемый пользователями как единое целое. Веб-сайты называются так, потому что доступ к ним происходит по протоколу HTTP.
Стандарт исключений для роботов — стандарт ограничения доступа роботам к содержимому на http-сервере при помощи текстового файла robots.txt
, находящегося в корне сайта. Действие файла не распространяется на сайты, расположенные на поддоменах.
Глубокая сеть — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами.
Download Master — менеджер загрузок с закрытым исходным кодом, работающий под Windows на лицензии adware.
Поиско́вая оптимиза́ция — комплекс мероприятий по внутренней и внешней оптимизации для поднятия позиций сайта в результатах выдачи поисковых систем по определённым запросам пользователей, с целью увеличения сетевого трафика, потенциальных клиентов и последующей монетизации этого трафика. SEO может быть ориентировано на различные виды поиска, включая поиск информации, товаров, услуг, изображений, видеороликов, новостей, адресов, контактов и специфические отраслевые поисковые системы.
Sitemaps — XML-файлы с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации. Sitemaps могут помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Использование протокола Sitemaps не является гарантией того, что веб-страницы будут проиндексированы поисковыми системами, это всего лишь дополнительная подсказка для сканеров, которые смогут выполнить более тщательное сканирование сайта.
nofollow — значение атрибута rel тега <a> языка гипертекстовой разметки веб-страниц HTML (rel="nofollow"
). Значение предназначено для поисковых систем: оно указывает их роботам, что гиперссылку не нужно сканировать. Таким же образом на практике помечаются рекламные ссылки, а для поисковых систем Google и Яндекс ссылки с данным атрибутом не передают PR и ТиЦ соответственно.
Метатеги — (X)HTML-теги, предназначенные для предоставления структурированных метаданных о веб-странице. Как правило, указываются в заголовке (X)HTML-документа. Элемент meta
принимает как минимум четыре атрибута: content, http-equiv, name и scheme. Из них обязателен только атрибут content и исключение тег revisit. Практически не стандартизированы, разрабатываются различными сервисами и поставщиками браузеров по своему усмотрению и регламентируются лишь «изобретателями». Лишь небольшая часть часто используемых или «изобретенных» достаточно давно, распознаются и обрабатываются относительно одинаково.
Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование, совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.
Google — крупнейшая в мире поисковая система интернета, принадлежащая корпорации Google Inc.. Основана в 1998 году Ларри Пейджем и Сергеем Брином.
WebCite — сервис веб-архивирования, запущенный в 2003 году по инициативе Гюнтера Эйзенбаха из Торонтского университета. WebCite обеспечивает долгосрочную доступность URL-адресов. Сервис не использовал поисковых роботов для архивирования ресурсов целиком и обрабатывал запросы пользователей на сохранение отдельных страниц. WebCite «захватывал» HTML, PDF, CSS, JavaScript, изображения и другие составляющие веб-страницы.
YaCy — свободно распространяемая децентрализованная поисковая система, построенная по принципу одноранговой сети (P2P). Есть версии для Windows, Linux, MacOSX. Основной программный модуль, написанный на Java, функционирует на нескольких тысячах компьютеров участников сети YaCy. Каждый участник проекта независимо исследует Интернет, анализируя и индексируя найденные страницы и складывает результаты индексирования в общую базу данных, который совместно используется всеми пользователями YaCy по принципу P2P.
Нормализа́ция URL — процесс, при котором URL приводится к единообразному виду. Цель процесса нормализации заключается в преобразовании URL в нормализованный вид, с тем, чтобы определить эквивалентность двух синтаксически различных URL-адресов.
«Я́ндекс» — поисковая система, принадлежащая российской корпорации «Яндекс», основной продукт компании.
Google Images — специальный сервис Google для поиска картинок в Интернете. Googlebot-Image, поисковый робот, сканирующий страницы для индекса картинок, производит поиск изображений различных форматов.
Код состояния HTTP 301 или Moved Permanently — стандартный код ответа HTTP, получаемый в ответ от сервера в ситуации, когда запрошенный ресурс был на постоянной основе перемещён в новое месторасположение, и указывающий на то, что текущие ссылки, использующие данный URL, должны быть обновлены. Адрес нового месторасположения ресурса указывается в поле Location получаемого в ответ заголовка пакета протокола HTTP. В RFC 2616 указано, что:
- если у клиента есть возможность редактирования ссылки, то ему следует обновить все ссылки на запрашиваемый URL;
- запрос кэшируется;
- в случае, если метод запроса был не HEAD, то содержимое должно включать в себя небольшое гипертекстовое примечание с гиперссылкой на новый URL;
- если код состояния 301 был получен в ответ на запрос любого другого типа, кроме GET или HEAD, то клиент должен спросить пользователя о перенаправлении.