Googlebot

Googlebot
Тип	Поисковый робот
Автор	Google
Разработчик	Google
Сайт	google.com/support/webma…

Googlebot — поисковый робот компании Google, используемый для сканирования мировой сети и пополнения поискового индекса системы Google. Робот начинает сканирование каждого отдельного сайта с получения списка URL-адресов веб-страниц, созданного по результатам предыдущих сеансов, и пополняет его данными из файлов Sitemap; просматривая страницы, робот ищет ссылки (SRC и HREF) и добавляет их в список страниц, подлежащих сканированию.

Веб-мастера могут управлять роботом с помощью команды в файле robots.txt или мета-тега <meta name="Googlebot" content="nofollow" />; Google в списке своих инструментов для веб-мастеров даёт возможность проверить «видение» сайта роботом. IP-адреса бота время от времени меняются.
При сканировании Googlebot указывает user-agent:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot-Image/1.0 (паук, сканирующий изображения)

Ссылки

Официальный список часто задаваемых вопросов о боте

Google LLC
Реклама	AdMob Adscape^[англ.] AdSense Advertising Professional^[англ.] Ads Analytics DoubleClick Insights for Search Trends Wallet Google Университет^[англ.]
Коммуникации	Allo Google+ Calendar Friend Connect Duo Gmail Inbox Groups Hangouts Meet Messages Вопросы и ответы^[англ.] Talk Translate Voice
ПО	Chrome Chromium Earth Gadgets Goggles Now SketchUp Talk Google Assistant Toolbar
Платформы	Account Android App Engine BigTable Chromecast Chrome OS Google Workspace Пользовательский поиск Native Client GFS Nexus OpenSocial Pixel Play Public DNS Stadia TV Fuchsia
Инструменты разработки	Android Studio Dart Gadgets API^[англ.] GData^[англ.] Go Googlebot Guice GWS Highly Open Participation Contest^[англ.] KML MapReduce Mediabot^[англ.] Pinyin^[англ.] SketchUp Ruby^[англ.] Sitemaps (index) Summer of Code AtGoogleTalks^[англ.] Web Toolkit Google Website Optimizer
Публикация	Alerts Blogger Bookmarks^[англ.] Документы FeedBurner Library Project^[англ.] Map Maker Sites YouTube Диск Фото Keep
Поиск (PageRank)	Appliance Audio^[англ.] Books Images Maps (Mars Moon Ocean^[англ.] Sky Street View) News Patents^[англ.] Покупки Scholar Usenet Video Web
Тематические проекты	Finance Google Glass Беспилотный автомобиль Google Loon Проект Tango Google Cardboard Noto Code Jam
Закрытые проекты	Вопросы и ответы^[англ.] Browser Sync Base Buzz Checkout Click-to-call^[англ.] Code Desktop Dodgeball^[англ.] Gears GOOG-411 Health iGoogle Image Labeler^[англ.] Jaiku Knol Labs Lively Mashup Editor^[англ.] Notebook Orkut Pack Panoramio Picasa Page Creator Picnik Reader SearchWiki^[англ.] Updater Video Marketplace^[англ.] Wave Web Accelerator Google Play Music
См. также	История Поглощения Список сервисов и инструментов Логотип Doodle Цензура^[англ.] Ara Arts & Culture Calico Current^[англ.] Earth Outreach^[англ.] Foundation (Google.org) Google China^[англ.] Googleplex Google X Lunar X Prize I/O WiFi^[англ.] Zeitgeist^[англ.] «Бомбы» Гуглизация Dinosaur Game

Похожие исследовательские статьи

Поиско́вая систе́ма — алгоритмы и реализующая их совокупность компьютерных программ, предоставляющая пользователю возможность быстрого доступа к необходимой ему информации при помощи поиска в обширной коллекции доступных данных. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

HTTP — протокол прикладного уровня передачи данных, изначально — в виде гипертекстовых документов в формате HTML, в настоящее время используется для передачи произвольных данных.

Ро́бот, или бот, а также интернет-бот и тому подобное — специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через интерфейсы, предназначенные для людей.

Поиско́вый ро́бот — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

Сайт, или веб-сайт, также веб-узел, — одна или несколько логически связанных между собой веб-страниц; также место расположения контента сервера. Обычно сайт в Интернете представляет собой массив связанных данных, имеющий уникальный адрес и воспринимаемый пользователями как единое целое. Веб-сайты называются так, потому что доступ к ним происходит по протоколу HTTP.

<span class="mw-page-title-main">Стандарт исключений для роботов</span> файл ограничения доступа к содержимому роботам на http-сервере

Стандарт исключений для роботов — стандарт ограничения доступа роботам к содержимому на http-сервере при помощи текстового файла robots.txt, находящегося в корне сайта. Действие файла не распространяется на сайты, расположенные на поддоменах.

Глубокая сеть — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами.

Download Master — менеджер загрузок с закрытым исходным кодом, работающий под Windows на лицензии adware.

Поиско́вая оптимиза́ция — комплекс мероприятий по внутренней и внешней оптимизации для поднятия позиций сайта в результатах выдачи поисковых систем по определённым запросам пользователей, с целью увеличения сетевого трафика, потенциальных клиентов и последующей монетизации этого трафика. SEO может быть ориентировано на различные виды поиска, включая поиск информации, товаров, услуг, изображений, видеороликов, новостей, адресов, контактов и специфические отраслевые поисковые системы.

Sitemaps — XML-файлы с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации. Sitemaps могут помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Использование протокола Sitemaps не является гарантией того, что веб-страницы будут проиндексированы поисковыми системами, это всего лишь дополнительная подсказка для сканеров, которые смогут выполнить более тщательное сканирование сайта.

nofollow — значение атрибута rel тега <a> языка гипертекстовой разметки веб-страниц HTML (rel="nofollow"). Значение предназначено для поисковых систем: оно указывает их роботам, что гиперссылку не нужно сканировать. Таким же образом на практике помечаются рекламные ссылки, а для поисковых систем Google и Яндекс ссылки с данным атрибутом не передают PR и ТиЦ соответственно.

Метатеги — (X)HTML-теги, предназначенные для предоставления структурированных метаданных о веб-странице. Как правило, указываются в заголовке (X)HTML-документа. Элемент meta принимает как минимум четыре атрибута: content, http-equiv, name и scheme. Из них обязателен только атрибут content и исключение тег revisit. Практически не стандартизированы, разрабатываются различными сервисами и поставщиками браузеров по своему усмотрению и регламентируются лишь «изобретателями». Лишь небольшая часть часто используемых или «изобретенных» достаточно давно, распознаются и обрабатываются относительно одинаково.

Поиско́вый и́ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́рование, совершаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.

Google — крупнейшая в мире поисковая система интернета, принадлежащая корпорации Google Inc.. Основана в 1998 году Ларри Пейджем и Сергеем Брином.

<span class="mw-page-title-main">WebCite</span>

WebCite — сервис веб-архивирования, запущенный в 2003 году по инициативе Гюнтера Эйзенбаха из Торонтского университета. WebCite обеспечивает долгосрочную доступность URL-адресов. Сервис не использовал поисковых роботов для архивирования ресурсов целиком и обрабатывал запросы пользователей на сохранение отдельных страниц. WebCite «захватывал» HTML, PDF, CSS, JavaScript, изображения и другие составляющие веб-страницы.

YaCy — свободно распространяемая децентрализованная поисковая система, построенная по принципу одноранговой сети (P2P). Есть версии для Windows, Linux, MacOSX. Основной программный модуль, написанный на Java, функционирует на нескольких тысячах компьютеров участников сети YaCy. Каждый участник проекта независимо исследует Интернет, анализируя и индексируя найденные страницы и складывает результаты индексирования в общую базу данных, который совместно используется всеми пользователями YaCy по принципу P2P.

<span class="mw-page-title-main">Нормализация URL</span> процесс приведения гиперссылки к единообразному виду

Нормализа́ция URL — процесс, при котором URL приводится к единообразному виду. Цель процесса нормализации заключается в преобразовании URL в нормализованный вид, с тем, чтобы определить эквивалентность двух синтаксически различных URL-адресов.

<span class="mw-page-title-main">Яндекс (поисковая система)</span> Российская поисковая система принадлежащая корпорации Яндекс

«Я́ндекс» — поисковая система, принадлежащая российской корпорации «Яндекс», основной продукт компании.

Google Images — специальный сервис Google для поиска картинок в Интернете. Googlebot-Image, поисковый робот, сканирующий страницы для индекса картинок, производит поиск изображений различных форматов.

Код состояния HTTP 301 или Moved Permanently — стандартный код ответа HTTP, получаемый в ответ от сервера в ситуации, когда запрошенный ресурс был на постоянной основе перемещён в новое месторасположение, и указывающий на то, что текущие ссылки, использующие данный URL, должны быть обновлены. Адрес нового месторасположения ресурса указывается в поле Location получаемого в ответ заголовка пакета протокола HTTP. В RFC 2616 указано, что:

если у клиента есть возможность редактирования ссылки, то ему следует обновить все ссылки на запрашиваемый URL;
запрос кэшируется;
в случае, если метод запроса был не HEAD, то содержимое должно включать в себя небольшое гипертекстовое примечание с гиперссылкой на новый URL;
если код состояния 301 был получен в ответ на запрос любого другого типа, кроме GET или HEAD, то клиент должен спросить пользователя о перенаправлении.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.