Семантический поиск
Семантический поиск — способ и технология поиска информации, основанная на использовании контекстного (смыслового) значения запрашиваемых фраз, вместо словарных значений отдельных слов или выражений при поисковом запросе. Улучшение результатов поиска при обработке запросов достигается за счет более точной интерпретации поисковых намерений пользователя.
Для осуществления семантического поиска в Сети (или в каких-либо системах с ограниченным доступом пользователей) применяются специальные технологии. При семантическом поиске учитывается информационный контекст, местонахождение и цель поиска пользователя, словесные вариации, синонимы, обобщенные и специализированные запросы, язык запроса, а также другие особенности, позволяющие получить соответствующий результат[1].
Технология семантического поиска рассматривается как дополнение, либо альтернатива традиционным видам поиска информации. Ряд крупных поисковых систем, таких как Google и Bing, используют некоторые элементы семантического поиска, не являясь таковыми в чистом виде.
Цель семантического поиска - определять особенности пользователя и предоставлять ему наиболее релевантные результаты.
История
Семантический поиск возник из семантической сети, которая строится на онтологиях. В области наук об информации и вычислительной технике онтология изначально означает информационную структуру и набор фактов, представляющих собой систему знания. Теория семантического поиска уходит корнями к 2003 году и статье Р.Гуха и др., о IBM, Стэнфорде и Консорциуме Всемирной паутины[2]. Тогда был продемонстрирован принцип работы семантического поиска.
С ростом популярности семантических сетей увеличилось и количество метаданных для поисковых систем. Почти все, что связано с запросами или сайтами, может считаться частью семантической области, имеющей отношение к результатам поиска.
Семантический поиск зависит как от семантической разметки веб-сайтов, так и от огромного количества семантической информации, которое она за собой влечет. В 2013 году первым крупным прорывом в технологиях семантического поиска стал алгоритм «Колибри»[3]. С этим алгоритмом был применен «разговорный поиск».
Атрибуты, определяющие семантический поиск
Атрибуты семантического поиска (отличающие его от не семантического поиска) не обязательно являются его преимуществами. Некоторые из атрибутов могут повысить точность поиска за счет использования большого количества времени (или других ресурсов). Соответственно, эти десять атрибутов являются лишь характерными чертами семантического поиска, дающими преимущество только в идеальных условиях[4].
1. Обработка морфологических вариаций.
2. Обработка синонимов с правильными значениями.
3. Обработка обобщений.
4. Обработка концептуального множества.
5. Обработка базы знаний.
6. Обработка запросов и вопросов, заданных простым языком.
7. Возможность определения непрерывного параграфа и наиболее соответствующего предложения.
8. Возможность к адаптации и органичному прогрессу.
9. Способность работать, не полагаясь на данные статистики, поведение пользователей и других искусственных средств.
10. Способность обнаруживать результаты своей собственной деятельности.
Семантический поиск в поисковых системах
Факторы, учитываемые поисковыми системами
Семантический поиск осуществляет не только анализ контекста, но и других факторов. Умные поисковые системы учитывают целый ряд факторов для того, чтобы получить наиболее соответствующие и подходящие поисковые запросы, включая:
1. Текущие тенденции
Если выборы президента только что закончились, и кто-то ищет информацию: «Кто стал новым президентом?», семантический поиск должен понять запрос и дать соответствующие результаты, основанные на текущих тенденциях и новостях.
2. Местонахождение пользователя
Если человек ввел запрос «Какая сейчас температура?», семантическая поисковая система должна предоставить результаты, основанные на месте его нахождения в момент запроса. Например, для ростовского жителя результатом запроса будут данные о температуре воздуха в городе Ростове-на-Дону.
3. Цель поиска
Семантический поиск основывается на выдаче подходящих результатов, основанных на цели поиска пользователя, а не определенных слов, использованных при обращении к поисковой системе.
4. Вариации слов в семантическом поиске
Семантический поиск должен учитывать лингвистические особенности запроса (падеж, число и время) и предлагать подходящие результаты для всех семантических вариаций слов, то есть видеть различия между близкими по написанию словами. Например, в таких словах как «техника» (транспортные средства или должность в род. падеже), «техники» (методики или должность во мн.ч.), «техник» (должность или методики во мн.ч), смысл часто меняется при переходе от единственного числа к множественному.
5. Синонимы
Семантические поисковые системы должны понимать синонимы и давать более или менее похожие результаты на любые синонимичные слова, запрашиваемые пользователем. Например, при запросах «наивысший пик» или «наибольший пик» ответ должен быть одинаковым.
6. Общие и специализированные запросы
Семантические поисковые системы должны обнаруживать связь между общими и специализированными запросами и предоставлять соответствующие результаты. Например, в сети существует информация как по общим вопросам здравоохранения, так и информация про «диабет». Если кто-то запрашивает информацию о состоянии здоровья, то семантический поиск должен предложить ссылки на оба источника, несмотря на то что в статье про диабет отсутствует упоминание слов «здоровье» или «здравоохранение».
7. Концептуальное множество
Это подмножество контекстной информации в семантическом поиске. Семантический поиск понимается как концепция запроса для получения соответствующих результатов. Например, запрос «проблемы дорожного движения в Москве» может выдать соответствующие результаты, включая такие, как «узкие дороги», «машины с мигалками», «ремонт дорог и строительство эстакад», «оставленный на обочинах автотранспорт» и т. д., так как с широкой концептуальной точки зрения, все это приводит к проблемам дорожного движения.
8. Простой язык при запросах
Не каждый человек - технический гуру, и не много людей знают, что именно нужно искать, чтобы получить нужный ответ. Большинство пользователей просто спросят, например, «Время во Владивостоке», на что большинство поисковых систем дадут ссылки на сайты где упоминаются «время» и «Владивосток». Умные поисковые системы сразу выдадут текущее время во Владивостоке.
9. Зависимость между значением фразы и использованными в ней словами
Конкретные слова в словосочетаниях и фразах или их порядок могут изменить истинное значение всего запроса. Например, запрос «Система приобретет новые активы в различных секторах» коренным образом отличается от запроса «Система приобретет новые очертания в различных секторах». В первом случае речь может идти о компании АФК «Система» и ее стратегии по покупке активов, вероятнее всего, в частном и государственном секторах. Второй вариант, вероятнее всего, говорит об изменении экономической модели и ее отражении на практике.
Крупнейшие поисковые системы (Google, Яндекс, Bing и др.) не являются в чистом виде семантическими поисковыми системами, но использует некоторые элементы семантического поиска. Семантическая поисковая оптимизация, предоставляет результат, основанный на множестве факторов, а не только на значении слов запроса.
Результат поиска в Интернете связан с:
- запросами других людей, которые ищут те же слова и фразы;
- временными, сезонными и погодными тенденциями относительно данного запроса;
- поисковыми тенденциями в конкретном месте проживания пользователя.
Поисковые системы используют данные по кликабельности страниц, времени нахождения на сайте, дальнейшем поведении пользователя для совершенствования алгоритмов поиска [3].
Обзор семантических поисковых систем
Суть семантического поиска заключается не только в форме вопросов, заданных поисковой системе. Поскольку, веб — это набор неструктурированных HTML-страниц, в основе семантического поиска также лежит и базовая информация.
Одной из самых интуитивных и наиболее точных семантических баз данных считается Freebase. Freebase работает не только через текстовый поиск, а что наиболее важно, и через — MQL (Metaweb Query Language). MQL работает подобно JSON (текстовый формат обмена данными), но обладает более широкими возможностями. С его помощью можно составить любой запрос в Freebase, ответом на который будет тот же запрос, но уже с прикрепленными результатами поиска. Powerset, по сути, это тематическая база данных, которая работает с определенной структурированной информацией[5].
Google, в первую очередь, ориентируется на статистическую частоту запросов и почти не принимает во внимание семантику. Особо стоит отметить новую систему SearchMonkey от Yahoo! Эта система ничего не добавляет к найденным результатам, но использует семантические аннотации для более полного, интерактивного и полезного пользовательского интерфейса.
Компании Hakia и Powerset постоянно работают над улучшением возможностей поиска. Их стратегия включает создание структур подобных Freebase с дальнейшим проведением поиска по наиболее релевантным результатам на естественном языке. Основное отличие заключается в том, что Hakia (как и другие) использует технологию для поиска по всей сети, а Powerset замкнул свой поиск только на Wikipedia[5].
Проблемы семантического поиска
Поисковые системы сталкиваются с огромным числом проблем при осуществлении поиска по семантике. Первой из них является определение того, что конкретно имел в виду пользователь, когда вводил поисковый запрос, то есть существование различных значений слова или фразы в различных контекстах.
Семантический поиск не сможет помочь при решении задач, не решаемых вычислительным путем.
Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического Веба считалось, что с его помощью можно решать даже сверхсложные задачи, однако, достигнуть высокого уровня все еще не удалось. Существуют пределы того, что можно вычислить, и имеется категория задач с огромным числом возможных решений, которые невозможно решить только на основе представления информации в RDF.
Кроме того, существует пласт задач, с которыми семантический веб справляется великолепно. Он решается при помощи тематической базы данных. Семантические технологии помогают отыскать тематическую информацию, рассредоточенную по всей сети, следовательно, семантические поисковые системы часто превосходят тематические запросы[6].
Примечания
- ↑ John, Tony (March 15, 2012). «What is Semantic Search?». Techulator. Retrieved July 13, 2012.
- ↑ Guha, R.; McCool, Rob; Miller, Eric (May 24, 2003). «Semantic Search». WWW2003. Retrieved July 13, 2012.
- ↑ 1 2 Эволюция семантического поиска Google и его влияние на SEO . Дата обращения: 5 ноября 2016. Архивировано 14 ноября 2016 года.
- ↑ What is Semantic Search and how it works with Google search . Дата обращения: 5 ноября 2016. Архивировано 7 ноября 2016 года.
- ↑ 1 2 Семантический поиск: мифы и реальность / Хабрахабр . Дата обращения: 5 ноября 2016. Архивировано 7 августа 2016 года.
- ↑ Семантическая поисковая система . Дата обращения: 5 ноября 2016. Архивировано из оригинала 1 мая 2016 года.