Разрешение лексической многозначности
Разрешение лексической многозначности (англ. word sense disambiguation, WSD) — это неразрешённая проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентности текста, при анализе умозаключений.
Научные исследования по разрешению лексической многозначности находятся в поле зрения прикладной и компьютерной лингвистики достаточно давно и имеют многолетнюю историю. С течением лет количество предложенных решений и их эффективность неуклонно росли до тех пор, пока эффективность не достигла определённого уровня сравнительно-эффективных показателей точности для определённого спектра слов и типов многозначностей. Полного решения задача пока не получила, поскольку на пути успешного решения стоит много проблем, напрямую связанных с языковыми особенностями человеческой речи.
Было исследовано большое количество методов: от методов, основанных на знаниях, правилах, лексикографических источников, обучения с учителем на корпусе текстов, до методов обучения без учителя, кластеризующие слова на основе смысла. Среди перечисленных, на сегодняшний день, методы обучения с учителем показали наилучшую эффективность. Однако, объективное сравнение и оценка методов является сложным процессом, зависящим от многих факторов. Для обобщённых систем словарных знаний (для английского языка) эффективность регулярно превышает планку в 90 %, иногда достигая даже 96 %. Для более дифференцированных словарных систем эффективность находятся в пределе 59 %-69 %.
О процессе разрешения многозначности
Вообще, под неоднозначностью (или многозначностью) языкового выражения или речевого произведения (текста) понимают наличие у него одновременно нескольких различных смыслов[1]. Учёные разделяют несколько типов подобной многозначности: лексическую, синтаксическую и речевую, однако термин «WSD» включает в себя разрешение именно лексической (смысловой).
О чём речь, можно понять из следующего примера с неоднозначным словом «ключ»:
- ключ как инструмент для открывания
- ключ как источник воды
а также 3 контекста:
- Ключ подошёл, дверь открылась
- Я напился из ключа
- Жизнь бьёт ключом
Для человека является очевидным, что в первом предложении слово «ключ» используется в первом значении, во втором предложении — соответственно во втором значении, а в третьем — возможны варианты. Разработка алгоритмов, имитирующих подобную способность человека может подчас становиться сложнейшей задачей.
Процесс разрешения требует нескольких вещей: системы словарных знаний для определения множества значений слов и корпус текстов для разрешения (в некоторых случаях могут потребоваться иные источники знаний).
Краткая история области
Проблема была впервые сформулирована в качестве отдельной задачи в 1940-х годах, во времена зарождения машинного перевода, что делает её одной из старейших проблем компьютерной лингвистики. Уоррен Уивер (англ. Warren Weaver), в его знаменитом «The „Translation“ memorandum» (1949)[2], представил проблему в компьютерно-вычислительном аспекте. Исследователи того времени прекрасно понимали её значение и сложность, в частности Иешуа Бар-Хиллель (один из первопроходцев) в 1960 выразил сомнение, что задача всеобщего полностью автоматического машинного перевода когда-либо будет осуществима из-за необходимости смоделировать всё знание человека о мире[3].
В 1970-х, проблема WSD стала частью систем семантической интерпретации, разрабатываемых в рамках области ИИ, однако они по большей части состояли из вручную выведенных правил, и поэтому полностью зависели от количества имеющихся знаний, добывать которые в то время было чрезвычайно трудоёмко.
К 1980-м годам такие объёмные ресурсы, как Oxford Advanced Learner’s Dictionary of Current English, стали доступны и ручное выписывание правил было вытеснено автоматическим извлечением знаний из подобных источников, однако методы всё ещё не вышли из класса так называемых «методов, основанных на знаниях».
Однако, в 1990-х годах «статистическая революция» полностью изменила подходы и методы в компьютерной лингвистике, и задача разрешения лексической многозначности стала проблемой, к которой применимы всевозможные методы обучения с учителем[4].
2000-е годы показали, что методы обучения с учителем достигли некоего уровня точности и не могут его преодолеть, поэтому внимание учёных сместилось в сторону работы с более обобщёнными системами словарных знаний (coarse-grained senses), адаптации к предметным областям (domain adaptation), частичного обучения с учителем (semi-supervised systems) и обучения без учителя (unsupervised corpus-based systems), смешанных методов, а также обработки баз знаний и выведению результатов в виде графов (the return of knowledge-based systems via graph-based methods). Однако, до сегодняшнего дня системы обучения с учителем считаются наиболее эффективными.
Проблемы и трудности
В процессе работы над проблемой разрешения лексической многозначности было обнаружено большое количество трудностей, чаще всего обусловленных свойствами человеческой психологии и речи.
Составление словарей
Словари не эквивалентны друг другу. Чаще всего задача отличить смыслы слова друг от друга не вызывает трудностей, однако в некоторых случаях различные значения слова могут быть очень близкими друг другу семантически (например, если каждый из них является метафорой или метонимией друг к другу), и в таких ситуациях разделение на смыслы в разных словарях и тезаурусах может значительно разниться. Решением этой трудности может стать всеобщее использование одного и того же источника данных: одного всеобщего словаря. Если говорить глобально, то результаты исследований, использующих более обобщённую систему разделения на смыслы, более эффективны[5][6], поэтому некоторые исследователи игнорируют в своих работах обработку словарей и тезаурусов с более детальным подразделением на смыслы.
Определение части речи
В некоторых языках частеречная разметка может быть очень близко связана с проблемой разрешения многозначностей, в результате чего эти две задачи могут друг другу мешать. Ученые так и не пришли к единому мнению, стоит ли разделять их на две автономные составляющие, однако перевес находится на стороне тех, кто считает, что это необходимо[7].
Человеческий фактор и согласованность ручных результатов
Системы разрешения лексической многозначности всегда оценивались сравнением результатов с результатом работы людей. Для людей задача может оказаться не такой простой, как POS-tagging — размечать смыслы среди нескольких предложенных значительно сложнее[8]. Если человек может держать в голове или же легко угадать части речи, которыми может быть слово, то запомнить все возможные смыслы слов не представляется возможным. Более того, результаты у разных людей не всегда совпадают[9] и они часто не приходят к общему решению о том, в каком значении данное слово употреблено в конкретном контексте. Несмотря на это, учёные берут результат человека в качестве стандарта, эталона для сравнения с результатами компьютера. Человек намного лучше справляется с обобщенными системами словарей, чем с детальными — и именно поэтому внимание исследователей переключилось именно на них[5][6].
Здравый смысл
Некоторые исследователи утверждают[10], что при обработке текстов немаловажен также здравый смысл, обучить которому компьютер представляется маловозможным. В качестве примера можно привести два следующих предложения:
- «Jill and Mary are sisters.» — (они являются сёстрами по отношению друг к другу).
- «Jill and Mary are mothers.» — (каждая независимо является матерью).
В первом предложении подразумевается, что Джилл и Мэри приходятся сёстрами друг другу; во втором же — что и Джилл, и Мэри обе являются матерями, и не обязательно родственниками. Поэтому для более точного анализа значений необходимо наличие подобных знаний о мире и обществе. Более того, эти знания порой также необходимы при разрешении синтаксических неоднозначностей и при анализе анафор и катафор.
Зависимость от поставленной задачи
Постоянный задаче-независимый (task-independent) набор методов не имеет смысла, если учесть, что многозначность слова мышь (животное и компьютерное устройство), например, вообще не влияет на результат англо-русского и русско-английского перевода (так как в обоих языках оба эти значения имеют воплощение в одном и том же слове), но сильно влияет при информационном поиске. Можно привести и обратный пример: при переводе с английского слова 'river' на французский необходимо знать значение слова ('fleuve' — река, впадающая в море, а 'rivière' — река, впадающая в другую реку). Таким образом, для разных задач требуются и разные алгоритмы — поэтому, если будет разработан какой-нибудь хороший алгоритм разрешения лексической многозначности, то он не обязательно подойдёт под решение всех задач.
Дифференцированность значений слов
Учёными ставится вопрос о возможности дискретного представления значений слова. Даже сам термин «значение слова» довольно общий и спорный. Большинство людей соглашаются при работе с обобщёнными системами знаний с высоким уровнем омографии слов, но как только уровень снижается и словари становятся более детальными — тут возникает большое количество расхождений. К примеру, на конференции Senseval-2, который использовал детальные системы, люди-аннотаторы пришли к соглашению только в 85 % случаев[11].
Значения слов очень гибки, довольно изменчивы и чрезвычайно контекстны, а иногда даже конситуационно зависимы, поэтому они не всегда строго делятся на несколько подзначений[12]. Лексикографы часто встречают в текстах слишком широкие и семантически перекрывающие друг друга подсмыслы, и стандартные значения слов часто приходится корректировать, расширять и сужать самым причудливым и неожиданным образом. Например, в данной ситуации «дети бегут к своим матерям» слово «дети» употребляется одновременно в двух смыслах: они одновременно является детьми своих родителей и просто детьми. Задача лексикографа состоит в том, чтобы, проанализировав огромный объём текстов и материалов, описать весь возможный спектр значений слова. Однако, пока неизвестно, применим ли этот подход в области вычислений и компьютерной лингвистики, ведь решения лексикографов принимаются в пользу полноты описанных смыслов, а не применимости полученной информации при обработке текстов.
Недавно, задача, получившая название лексическая подстановка (англ. lexical substitution), была предложена в качестве решения проблемы дифференцирования значений слов[13]. Смысл её заключается в предоставлении замены слова другим, сохраняющим значение старого в данном контексте.
Актуальность проблемы, возможные применения
Результаты процесса зависят не только от инновативности и эффективности методов, но и от различных настроек и свойств задачи, и требований процесса разрешения (например, дифференцированности значений слова, особенностей оценки результатов, покрытию разрешения (disambiguation coverage) и др.). Также, большое количество областей NLP могут воспользоваться результатами WSD.
Информационный поиск
В системах поиска информации — если при поиске по запросу исключить из рассмотрения те документы, в которых какое-либо из слов запроса употребляется в не том значении, которое интересует пользователя в данный момент, то можно увеличить релевантность результатов запросов.
В 1994 г. Sanderson обнаружил[14], что улучшения могут быть обнаружены только если эффективность разрешения многозначности превышает 90 %, the general validity of which is debated. И в 1995 Schutze и Pedersen показали[15], который показал, что при вышеуказанной эффективности можно получить 4 % улучшение поиска. Однако Стоуки показал, что использование WSD может дать, пусть и небольшие — в среднем 1,73 %, результаты и при более низкой эффективности WSD (62.1 %)[16].
Машинный перевод
В системах машинного перевода отсутствие надежных механизмов распознавания значения слова значительно снижает качество перевода, так как слово не всегда однозначно переводится на другой язык. И автоматическое определение правильного перевода в зависимости от контекста — очень трудная задача. Разрешение лексической многозначности ещё с давних пор задумывалось как главная задача, решение которой позволит добиться почти идеального машинного перевода — эти мысли основаны на идее, что WSD не может не улучшить системам перевода выбрать правильные кандидаты значений для перевода. Эта область не исследована настолько, насколько необходимо, из-за с давних пор ставших традиционными менее эффективными предопределёнными базами словарных данных (англ. sense inventory)".
Извлечение информации
В специфичных областях наибольший интерес представляют проблемы разрешения специфичных им концептов: к примеру, в медицинской области может пригодиться определения названий лекарств в тексте, тогда как в биоинформатике необходимо разрешать неоднозначности в именовании генов и протеинов — этот процесс был назван Извлечение информации (Information Extraction). Оно включает в себя такие задачи, как named-entity recognition (англ. named-entity recognition) (NER), раскрытие акронимов (acronym expansion) (напр., РФ — Российская Федерация) и другие — всё это можно рассматриваться в качестве задачи разрешения многозначности, хотя это и является новым и ещё толком не исследованным направлением.
Контент-анализ
Контент-анализ и выявление главных частей текста в терминах идей, тем и т. п. может извлечь большую выгоду от WSD. К примеру, классификация текстов (блогов), присвоение тегов статьям или блогпостам, или определение релевантных (возможно, семантически) связей между ними, или (семантический) анализ социальных сетей, становящаяся всё более и более активной в последнее время. Эта область является наиболее новой, неизвестной из всех вышеперечисленных.
Другие области
- Обработка текстов является одной из областей применения WSD, так как последнее может помочь процессу корректирования написания слов[17], исправлению заглавных и прописных букв, исправлению/добавлению диакритики на основе семантики контекста
- исследования в лексикография и WSD взаимно обогащают друг друга:
- WSD может помочь разделять слова на значения, используя эмпирические знания, и получить индикаторы контексты определённых значений; более того, WSD может помочь созданию семантических сетей из электронных словарей[18]
- с другой стороны, лексикографы могут предоставить более богатые и логически/эмпирически правильные разделения слов на значения, sense inventories а также аннотированные корпуса текстов (как пример, «HECTOR project» и «Sketch Engine»)
- семантический веб: так как семантический веб в своей основе нуждается в домено-зависимом и неограниченном разрешении лексической многозначности для работы с семантикой веб-документов, для взаимодействия между такими вещами, как системы, онтологии и пользователи. WSD используется и исследуется в таких областях, как обучение онтологий (англ. ontology learning), построения таксономий областей[19][20][21] и обогащения семантических сетей.
Основные типы методов
При обработке естественного языка, существует два подхода: глубокий и поверхностный.
Подходы, относящиеся к первой категории предполагают доступ к так называемому знаниям о мире (world knowldge или commonsense knowledge base). Например, знание того, что «любая неодушевлённая, материальная вещь может быть зелёным в смысле цвета, но не может быть зелёным в смысле неопытности», позволяет определить, в каком смысле слово «зелёный» употреблено в данном контексте. Такие подходы не настолько результативны на практике, поскольку такой класс знаний о мире, пусть и возможно хранить в удобном для восприятия компьютера формате, покрывает очень небольшие[22] области нашей с вами жизни и не совсем применимы ко всем исследованиям. Надо сказать, что и этот подход тоже не всегда работает, например, в предложении «Директор был такой зелёный» пользуясь знаниями, невозможно определить, в данном случае директор зелёный потому что он позеленел или потому что он неопытен — зачастую это возможно определить только исходя не из контекста, а логики и смысла всего текста.
Также, в компьютерной лингвистике существует старая традиция применения данных методов в терминах программных знаний, и зачастую довольно сложно определить, эти знания являются лингвистическими или знаниями о мире (англ. Commonsense knowledge base). Первая попытка была предпринята Маргарет Мастермен (англ. Margaret Masterman) и её коллегами из Кембриджского отделения по исследованию языка (Cambridge Language Research Unit) в Англии, в 50-х: они использовали данные тезауруса Роже и пронумерованные «головные слова» (англ. headword) в качестве индикаторов тем и анализировались повторения в тексте, используя алгоритм пересечения множеств. Этот эксперимент был не очень удачен[23], однако оказал сильнейшее влияние на последующие работы, особенно на работу Яровкского 1990-х об оптимизации тезаурусного метода с помощью машины обучения с учителем.
Поверхностные же подходы не пытаются понять текст, они лишь опираются на анализ близлежащих слов, например: если рядом со словом «bass» присутствуют слова «sea» или «fishing», скорее всего, что в данном случае имеет место значение в биологическом смысле. Эти правила могут быть автоматически извлечены, используя корпус текстов с размеченными значениями слов. Этот подход, пусть и не покрывает по мощности предыдущий, по эффективности на практике легко его обгоняет. Однако, всегда существуют подводные камни, например как в предложении «The dogs bark at the tree», в котором рядом со словом «bark» содержатся слова и «tree», и «dogs».
Существует четыре основных метода разрешения многозначности:
- методы, основанные на знаниях (dictionary- и knowledge-based methods): эти методы преимущественно полагаются на словари, тезаурусы, лексикографические базы данных, не полагаясь на корпусы текстов.
- методы обучения с учителем (supervised methods): эти методы используют размеченные корпуса текстов для тренировки классификатора.
- методы частичного обучения с учителем (semi-supervised или minimally-supervised methods): эти методы используют вторичные знания, такие как определения терминов в толкованиях слов или выровненный двуязычный корпус.
- методы обучения без учителя (Unsupervised methods): большинство этих методов не предполагает использование каких-либо внешних данных и используют только raw unannotated corpora; также, они известны под термином кластеризации и «word sense discrimination».
Методы, основанные на знаниях
Метод Леска[24] — продуктивный метод, основанный на использовании знаний словаря. Он основывается на гипотезе, что слова, находящиеся рядом в тексте, связаны друг с другом и эту связь можно наблюдать у определений слов и их значений. Два (или более) слова могут оказаться близкими, если у обоих из них будет обнаружена пара значений с наибольшим пересечением слов в их определениях в словаре. К примеру, словосочетание «pine cone», в определениях обоих в одного из значений присутствует такие слова как «evergreen» и «tree». Также, как альтернативу предыдущему способу, можно использовать глобальную связь между этими словами, подсчитав семантическую близость каждой пары значений в WordNet.
Как альтернативу вышеизложенным методам можно использовать общую семантическую близость (англ. semantic similarity) значений слов, основанную на WordNet'e. Методы, использующие графы и работающие по принципу распространяющейся активации (англ. spreading activation) также применялись с некоторым успехом: некоторые из них показали точность, сравнимую[25] с методами обучения с учителями, а иногда и превосходящую[5][26] в определённых областях. Также, недавно было показано[27], что даже простейшие методы, основанные на мерах связности графов (таких, как степень/валентность всего графа) могут показать высокие результаты при наличии богатой лексической базы.
Использование так называемых моделей управления («selectional preferences» или «selectional restrictions») также бывает довольно полезным. К примеру, используя знание, что слово «bass» в значении рыбы часто встречается со словом «cook» или «eat», мы можем разрешить многозначность в таком предложении как «I am cooking bass». Однако, создать подобные знания о мире чрезвычайно трудозатратно и практически невозможно.
Методы обучения с учителем
Все методы обучения с учителем основаны на предположении, что контекст рассматриваемого нами слова предоставляет достаточно информации для того, чтобы вычислить то, в каком значении оно в данном случае применено (а значит знания, полученные из словарей и тезаурусов, отсекаются как лишние). Все модели обучения с учителем применялись к проблеме WSD, включая связанные с ними техники, такие как выбор переменных, оптимизация параметров и смешанные модели (англ. ensemble learning). Метод опорных векторов и метод обучения на примерах (англ. instance-based learning) показали себя как одни из наиболее высокоэффективные методы на сегодняшний день, возможно, потому что они могут справиться с многопараметрическими свойствами слов и контекстов. Однако, вышеперечисленные методы имеют в качестве узкого места требование иметь огромное количество вручную размеченных текстов для обучения, что, как уже говорилось, трудоёмко и дорого. Снова встаёт проблема обладания подобными размеченными корпусами.
Методы частичного обучения с учителем
Метод бутстреппинга[28] является распространённым способом итеративного обучения и оценки классификатора для увеличения его эффективности. Алгоритм начинается с небольшого количества начальных данных (англ. seed data) для каждого слова: либо небольшое количество вручную введённых примеров контекстов либо пара безошибочных правил определения значения слова (к примеру, слово «play» в контексте слова «bass» почти всегда обозначает, что слово подразумевается в музыкальном значении). Эти данные используются для тренировки классификатора, применяя любой из вышеприведённых методов обучения с учителем. Затем, классификатор применяется на множестве уже неразмеченных текстов для извлечения большой тренирующей выборки, в которую включены только «надёжные» контексты. Процесс итеративно повторяется: каждый следующий классификатор обучается на соответствующем ему бо́льшем множестве контекстов — и повторяется до тех пор, пока весь корпус не покрыт либо пока не достигнуто максимальное количество итераций.
Другой метод использует большие объёмы неразмеченных текстов для получения информации о совместной встречаемости слов, что может значительно дополнить наши данные. Также, правильно выравненный билингвальный корпус может использоваться для разрешения кросс-языковой многозначности, так как многозначное слово в одном языке всегда переводится на другой язык в зависимости от своего значения, в котором оно употреблено. Этот метод в каком-то смысле тоже можно считать методом частичного обучения.
Все вышеперечисленные техники могут позволить адаптировать методы обучения с учителем к другим областям.
Методы обучения без учителя
Данный вид методов — одна из наиболее сложных WSD-задач. Основным предположением этого метода является утверждение: «схожие значения встречаются в схожих контекстах» и таким образом они могут быть извлечены из текста с помощью кластеризации, используя некоторую меру схожести контекстов[29]. Тогда, новые контексты могут быть причислены к одному из ближайших кластеров. Производительность метода безусловно ниже других методов, однако сравнение несколько проблематично из-за необходимости проецирования полученных кластеров на имеющиеся в словаре значения. Если же проецирование не требуется, то можно произвести оценки кластеризации (включая энтропию и чистоту). Учёные возлагают большую надежду на то, что методы обучения без учителя смогут помочь превозмочь недостатки получения знаний (англ. knowledge acquisition), так как они не требуют решения чрезмерно трудоёмких задач по синтаксической и семантической разметке всего корпуса.
Другие методы
Также существуют другие методы, основанные на совершенно отличающихся от вышеперечисленных принципах:
- Определение доминантности значения слова (Determining Word Sense Dominance)[30][31][32][33].
- Разрешение, основанное на темах (доменах) корпуса (Domain-Driven Disambiguation)[34][35]
- WSD, использующее кросс-языковые данные (Cross-Lingual Evidence)
Локальные проблемы и итог
Проблема получения знаний (англ. knowledge acquisition bottleneck) является наиболее серьёзным препятствием на пути решения проблемы разрешения многозначности. Методы обучения без учителя опираются на знания, которые едва ли присутствуют в электронных словарях и других лингвистических электронных системах знаний. Методы же обучения с учителем и вовсе полагаются на существование вручную аннотированного корпуса, существование которого технически реализуемо только для небольшого набора слов для целей тестирования, как это было проделано для Senseval.
Поэтому, одним из наиболее обнадёживающих трендов является использование Интернета в качествое корпуса для получения лексической информации автоматически[36]. WSD традиционно понимался как способ улучшить результаты таких областей, как information retrieval (IR). В данном случае, тем не менее, обратное тоже верно: поисковые системы обладают простыми и достаточно быстрыми возможностями для успешного майнинга Интернета для использования в WSD. Поэтому проблема получения знаний спровоцировала появление определённых методов по их получению:
Внешние источники знаний
Знания являются одними из ключевых моментов разрешения многозначности: они предоставляют данные, на которые опирается сам процесс разрешения. Эти данные могут быть как корпусы текстов, так и словари, тезурусы, глоссарии, онтологии:[37][38][39]
Структурированные источники
Неструктурированные источники
- Текстовый корпус: аннотированный значениями слов (англ. sense-annotated corpora) и неаннотированный (англ. raw corpora)
- Знания о совместной встречаемости слов (англ. collocation resources)
- Другие ресурсы, такие как: списки встречаемости слов, стоплисты, доменные теги (англ. domain label)[40]
Оценка и сравнение методов, конференция Senseval
Тестирование и сравнение методов является совсем нетривиальной задачей из-за различий в различных тестовых выборках, sense inventories, а также используемых источников данных. До того, как были созданы специальные мероприятия для сравнения систем, они сравнивались вручную, на собственных, часто небольших подборок данных. Ведь для того, чтобы проверить свой алгоритм, разработчики должны потратить время, чтобы вручную разметить все употребления слов. И сравнивать одни и те же методы даже на одинаковых текстах нельзя, если в них используются разные системы толкования слов.
Для «объединения» и сравнения методов были организованы международные конференции по сравнению систем WSD. Senseval (теперь переименована в Semeval) является международной конференцией по сравнению систем разрешения лексической многозначности, проводившаяся каждые 3 года, начиначя с 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), и их логический последователь SemEval, который был полностью посвящён задаче WSD и был проведён единожды, в 2007 году. В число её задач входит организация семинаров и мастер-классов, подготовка и разметка корпусов вручную для тестирования систем, а также сравнение алгоритмов различных типов («all-words» и «lexical sample» WSD, палгоритмы использующие аннотированный корпус и использующие неаннотированный) а также изучение таких подзадач как semantic role labeling, gloss WSD, lexical substitution и т. д. В рамках вышеперечисленных мероприятий также проводились сравнения WSD-систем в рамках не только английского языка. Однако, ни одного языка славянской группы на мероприятиях не было.
Выбор моделей оценки
Система значений слов. Во время первых конференций в качестве систем значений слов (словарей, лексических баз данных) использовались либо малоизвестные недоступные ранее (напр., проект HECTOR) либо небольшие, самостоятельно сделанные организаторами небольшие, неполные версии настоящей полной системы, покрывающие те области, которые требовались в соревновании. Обычно и те, и другие являлись недостаточно подробными и дифференцированными (англ. coarse-grained), однако выбирались именно они для того, чтобы избежать использования наиболее популярных и подробных (англ. fine-grained) примеров (напр., WordNet), поскольку это сделало бы эксперимент «нечистым», так как эти базы знаний уже были неоднократно «засвечены» в различных исследованиях и оценках. Было замечено, что на более подробных результаты были совсем другими, поэтому было принято решение тестировать алгоритмы и на тех, и на других sense inventories.
Набор проверяемых слов. Также, сравнение методов разрешения многозначности делится на два типа по количеству проверяемых слов: разрешение лексической многозначности некоторой совокупности слов (чаще всего, несколько десятков) и разрешение лексической многозначности всех слов текста. Их различие заключается в объёме анализа и обработки данных: задача «all-words» («все-слова-текста») подразумевает обработку всех присутствующих в тексте слов на предмет многозначности (абсолютно все слова в корпусе должны быть разрешены), задача же «lexical sample» («ограниченный набор») состоит в разрешении только целевых слов, определённых заранее и находящихся в нашем корпусе. Первый тип предполагается более реалистичной оценкой, однако намного более трудоёмкой с точки зрения проверки результатов. Из-за сложностей тестирования второго в первых конференциях проводились тестирования тестового набора, однако потом оба были включены в тестирование.
В случае задачи «ограниченного набора слов» организаторам необходимо было выбрать те самые ключевые слова, на которых системы должны были тестироваться. Критикой мероприятий, которые происходили до Senseval’a, являлось то, что эти образцы из набора выбиралось по прихоти экспериментаторов. На Senseval’e этого попытались избежать, выбрав произвольные слова, разделенные на группы по частям речи, частотностям и степени многозначности. Также, по вопросу включения проблемы определения части речи в программу WSD было много разногласий, поэтому организаторы приняли решение включить в выборку слов как чётко обозначенные части речи, так и определённое количество неопределённых.
Корпус. Необходимо пояснить, что такое размеченный текст и что такое неразмеченный. Неразмеченный корпус является по сути некой массой обычных текстов, которые содержат необходимое количество упоминаний слов, которые нужно «разрешить». Размеченный же является тем же самым сборищем текстов, однако с тем отличием, что все упоминаемые слова содержат приписанную (напр., в качестве тега или иной другой мета-информацией) информацию о том, в каком значении слова употреблены в данных контекстах.
Служить обучающим материалом для систем по разрешению лексической многозначности могут как размеченные тексты (системы обуч. с учителем), так и неразмеченные (системы обуч. без учителя), однако для автоматического тестирования систем необходимо наличие именно размеченного, получение которого довольно трудоёмко. Процесс этот проходит таким образом: несколько лингвистов-лексикографов проходят по всему тексту и в соответствии со словарем значений всем словам из заданной выборки слов, тестируемых на определение многозначности, приписывают мета-информацию о том, в каком значении слова употреблены в данных контекстах. Затем, для каждого слова делают некое подобие кворума из принятых решений лексикографов и выносится решение о том, в каком значение оно здесь употреблено, после чего в конечную версию текста добавляются полученные теги; иным словом, все употребления избранных нами слов дополняются необходимой мета-информацией.
Затем, корпус разделяется на три части. Первая, так называемая dry-run distribution (англ. «предварительный прогон») позволяет командам отрегулировать и адаптировать свои программы к виду и структуре подаваемой на вход информации; содержит необходимый минимум информации.
Вторая часть называется тренировочной выборкой (англ. training distibution), содержащей словарные статьи и корпус с мета-информацией о значениях целевых слов), которая позволяет обучить соревнующиеся программы правильно выбирать нужные смыслы слов; она предоставляется всем командам сразу после предварительного прогона. Количество контекстов необходимых слов может колебаться довольно сильно (от нескольких до больше 1000) и зависит от количества доступных контекстов. Затем идёт стадия обучения программ.
Последняя же часть, называемая оценочной выборкой (англ. evaluation distibution, без мета-информации о значениях целевых слов), доступная после завершения обучения программ, позволяет вычислить аккуратность алгоритмов. Каждый контекст был аннотирован вручную по крайней мере тремя людьми, однако эта мета-информация не было включена в распространяемые данные, посокльку именно они проверяются. Все программы, проходя по этой выборке, необходимы были вычислить для каждого контекста наиболее вероятное значение употребляемого слова (или же список значений с соответствующими им вероятностями); после отправки данных организаторам, те автоматически получают результаты, сравнивая со своими (так как оценочная выборка, так же как и обучающая содержит размеченные употребления слов).
Группы и бейслайны. Необходимо отметить, что все алгоритмы работают по-разному и пользуются разными источниками информации, поэтому все они были разделены на группы по методу обработки текстов: методы обучения с учителем и методы обучения без учителя. Для сравнения с уже известными алгоритмами (названными отправными точками — baselines) были также опубликованы их результаты, например, всевозможные вариации алгоритма Леска.
Далее, поскольку задача WSD требует для себя наличия словаря значений и корпуса, организаторам надо было выбрать какие-нибудь из существующих для проекта. WordNet и SemCor — самые популярные примеры вышеперечисленных необходимых компонентов, однако их использование сделало бы эксперимент нечистым, так как эти базы знаний уже были неоднократно «засвечены» в различных исследованиях и оценках, поэтому для тестирования обычно выбираются или недоступные ранее или самостоятельно сделанные организаторами неполные версии обеих вещей (к примеру, на Senseval-1 оба были предоставлены проектом HECTOR[41]).
Аккуратность алгоритмов. При оценке практически любого алгоритма классификации каких-либо объектов используются две самые распространенные меры оценок — точность и полнота (англ. Precision and recall):
- precision (точность, то есть процент правильно приписанных классу среди всех объектов ему приписанных)
- recall (полнота, то есть процент правильно приписанных среди тех, что должны быть приписаны к этому классу).
Однако, если система аннотирует каждое слово или результат рассчитывается для всех классов сразу, точность и полнота являются одной и той же величиной — она называется аккуратностью вычислений аккуратностью вычислений (англ. Accuracy). Эта модель была расширена для употребления при выдаче алгоритмами списка значений с соответствующими им вероятностями.
Результаты и особенности
Семинары Senseval являются наилучшим примером для изучения самых лучших результатов систем WSD и будущих направлений исследования области. Существуют определённые выводы, которые можно сделать, проанализировав и обобщив поздние конференции:
- Среди систем обучения с учителем подходы, использующие memory-based learning или SVM показали наилучшую эффективность, однако организаторы конференции подчеркивают, что лучшие результаты достигаются теми системами, которые используют комбинации нескольких подходов и особенно те, основывающиеся на обучении по размеченным корпусам[42].
- Для того, чтобы изучить, насколько можно использовать системы разрешения многозначности в приложениях информационного поиска, в рамках конференции SemEval-2007, одним из заданий являлось применение алгоритмов разрешения многозначности в рамках задачи информационного поиска. Суть задания заключается в следующем: все участники должны выполнять поиск на одной и той же поисковой машине, однако перед поиском необходимо расширить запросы или тексты синонимами, соответствующими выбранным значениям.
- Семантическая разметка корпуса обычно используется двумя основными способами: как основа для обучения программы разрешения многозначности и её проверки, так и как информация о наиболее частотном значении, которое выбирается в тех случаях, когда не удалось выбрать значение с помощью основного алгоритма. По оценкам, порядка 60 % слов в тестовых текстах употреблены в наиболее частотном значении, полученному по семантически размеченному корпусу SemCor.
- Необходимо отметить, что использование разных систем разбиений слов на значения: fine-gained (более дифференцированное) и coarse-grained (менее дифференцированные) — показало очень сильно различающиеся результаты, поэтому теперь в рамках каждой конференции проводится сравнение систем относится как относительно первой группы (напр., WordNet), так второй (напр., Wordsmyth).
Для понимания общего состояния данной области и уровня, достигнутого лучшими системами разрешения многозначности, необходимо проанализировать и внимательно изучить лучшие результаты и их особенности:
- результаты, полученные менее дифференцированных системах значений, чем WordNet, были значительно выше: 88,7 % для lexical sample, и 82-83 % для задачи «all-words». Это является хорошей новостью для всей области, потому что показывает, что проблема репрезентации значений слов (англ. word sense representation) сильно связана с проблемой получения аккуратности в районе 80 %-90 %, при этом оставляя разграничение слов на значения достаточно выразительным и содержательным;
- важно отметить, что иногда в счет «благополучно» разрешенных многозначных единиц попадают также и однозначные термины: по некоторым оценкам[43], около 3-10 % размеченных слов могут оказаться однозначными в WordNet, и если рассчитать точность разрешения многозначности для лучшей системы, не считая однозначных слов, то величина точности разрешения многозначности лучшей системы может упасть на несколько процентов.
Примечания
- ↑ Анна А. Зализняк. ФЕНОМЕН МНОГОЗНАЧНОСТИ И СПОСОБЫ ЕГО ОПИСАНИЯ. Вопросы языкознания. — М., 2004. — № 2. — С. 20-45
- ↑ W. Weaver. 1949. Translation Архивная копия от 24 июля 2011 на Wayback Machine. In Machine Translation of Languages: Fourteen Essays, ed. by Locke, W.N. and Booth, A.D. Cambridge, MA: MIT Press.
- ↑ Y.Bar-Hillel, Language and information (Reading, Mass.: Addison-Wesley, 1964), с.174- 179.
- ↑ Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, (http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Архивная копия от 14 апреля 2015 на Wayback Machine)
- ↑ 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-Grained English All-Words Task Архивная копия от 18 марта 2012 на Wayback Machine. Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech Republic, pp. 30-35.
- ↑ 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Task 17: English lexical sample, SRL and all words Архивная копия от 18 марта 2012 на Wayback Machine. Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech Republic, pp. 87-92.
- ↑ Lynette Hirschmann, The evolution of evaluation (1998) — Computer Speech and Knowledge
- ↑ C. Fellbaum 1997. Analysis of a handtagging task. In Proc. of ANLP-97 Workshop on Tagging Text with Lexical Semantics: Why, What, and How? Washington D.C., USA.
- ↑ B. Snyder and M. Palmer. 2004. The English all-words task Архивная копия от 29 июня 2011 на Wayback Machine. In Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain, pp. 41-43.
- ↑ Douglas Lenat. Computers versus Common Sense . Дата обращения: 10 декабря 2008. Архивировано 27 июля 2013 года. (GoogleTachTalks on youtube)
- ↑ P. Edmonds. 2000. Designing a task for SENSEVAL-2 Архивная копия от 28 сентября 2011 на Wayback Machine. Tech. note. University of Brighton, Brighton. U.K.
- ↑ A. Kilgarriff. 1997. I don’t believe in word senses Архивная копия от 24 июля 2011 на Wayback Machine. Comput. Human. 31(2), pp. 91-113.
- ↑ D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Архивная копия от 9 июля 2009 на Wayback Machine, Language Resources and Evaluation, 43(2), Springer, pp. 139—159.
- ↑ SANDERSON, M. 1994. Word sense disambiguation and information retrieval. In Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Ireland). 142—151.
- ↑ SCHUTZE, H. AND PEDERSEN, J. 1995. Information retrieval based on word senses. In Proceedings of SDAIR’95 (Las Vegas, NV). 161—175.
- ↑ STOKOE, C., OAKES, M. J., AND TAIT, J. I. 2003. Word sense disambiguation in information retrieval revisited. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Canada). 159—166.
- ↑ YAROWSKY, D. 1994. Decision lists for lexical ambiguity resolution: Application to accent restoration in Spanish and French. In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics (Las Cruces, NM). 88-95.
- ↑ RICHARDSON, S. D., DOLAN, W. B., AND VANDERWENDE, L. 1998. Mindnet: Acquiring and structuring semantic information from text. In Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, P.Q., Canada). 1098—1102.
- ↑ NAVIGLI, R., VELARDI, P., AND GANGEMI, A. 2003. Ontology learning and its application to automated termi- nology translation. IEEE Intell. Syst. 18, 1, 22-31.
- ↑ NAVIGLI, R. AND VELARDI, P. 2004. Learning domain ontologies from document warehouses and dedicated Websites. Computat. Ling. 30, 2, 151—179.
- ↑ CIMIANO, P. 2006. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Springer, New York, NY.
- ↑ Lenat, Douglas; Guha, R. V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
- ↑ Y. Wilks, B. Slator, L. Guthrie. 1996. Electric Words: dictionaries, computers and meanings. Cambridge, MA: MIT Press.
- ↑ Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international conference on Systems documentation, p. 24 — 26, 1986. ISBN 0-89791-224-1
- ↑ R. Navigli, P. Velardi. 2005. Structural Semantic Interconnections: a Knowledge-Based Approach to Word Sense Disambiguation Архивная копия от 9 июля 2009 на Wayback Machine. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), pp. 1063—1074.
- ↑ E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Knowledge-based WSD on Specific Domains: Performing better than Generic Supervised WSD Архивная копия от 24 июля 2011 на Wayback Machine. In Proc. of IJCAI, pp. 1501—1506.
- ↑ R. Navigli, M. Lapata. An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation Архивная копия от 14 декабря 2010 на Wayback Machine. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678—692.
- ↑ D. Yarowsky. 1995. Unsupervised word sense disambiguation rivaling supervised methods Архивная копия от 7 июня 2010 на Wayback Machine. In Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics, pp. 189—196.
- ↑ H. Schütze. 1998. Automatic word sense discrimination Архивная копия от 18 марта 2012 на Wayback Machine. Computational Linguistics, 24(1), pp. 97-123.
- ↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Finding predominant senses in untagged text. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (Barcelona, Spain). 280—287.
- ↑ MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Unsupervised acquisition of predominant word senses. Computat. Ling. 33, 4, 553—590.
- ↑ MOHAMMAD, S. AND HIRST, G. 2006. Determining word sense dominance using a thesaurus. In Proceedings of the 11th Conference on European chapter of the Association for Computational Linguistics (EACL, Trento, Italy). 121—128.
- ↑ LAPATA, M. AND KELLER, F. 2007. An information retrieval approach to sense ranking. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348—355.
- ↑ GLIOZZO, A., MAGNINI, B., AND STRAPPARAVA, C. 2004. Unsupervised domain relevance estimation for word sense disambiguation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, Spain). 380—387.
- ↑ BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domain-specific WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 275—298.
- ↑ KILGARRIFF, A. AND GREFENSTETTE, G. 2003. Introduction to the special issue on the Web as corpus. Computat. Ling. 29, 3, 333—347.
- ↑ E IDE, N. AND VE´RONIS, J. 1998. Word sense disambiguation: The state of the art. Computat. Ling. 24, 1, 1-40.
- ↑ LITKOWSKI, K. C. 2005. Computational lexicons and dictionaries. In Encyclopedia of Language and Lin- guistics (2nd ed.), K. R. Brown, Ed. Elsevier Publishers, Oxford, U.K., 753—761.
- ↑ AGIRRE, E. AND STEVENSON, M. 2006. Knowledge sources for WSD. In Word Sense Disambiguation: Algo- rithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 217—251.
- ↑ MAGNINI, B. AND CAVAGLIA, G. 2000. Integrating subject field codes into WordNet. In Proceedings of the 2nd Conference on Language Resources and Evaluation (LREC, Athens, Greece). 1413—1418.
- ↑ 1. Adam Kilgarriff and Joseph Rosenzweig, English Senseval: Report and Results May-June, 2000, University of Brighton
- ↑ Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. The Senseval-3 English lexical sample task, 2004. p. 2
- ↑ Loukachevitch N., Chuiko D. Thesaurus-based Word Sense Disambiguation, 2007
Рекомендуемая литература
- Computational Linguistics Special Issue on Word Sense Disambiguation (1998)
- Evaluation Exercises for Word Sense Disambiguation Архивная копия от 2 сентября 2005 на Wayback Machine The de-facto standard benchmarks for WSD systems.
- Roberto Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1-69. An up-to-date state of the art of the field.
- Word Sense Disambiguation as defined in Scholarpedia
- Word Sense Disambiguation: The State of the Art (PDF) A comprehensive overview By Prof. Nancy Ide & Jean Véronis (1998).
- Word Sense Disambiguation Tutorial, by Rada Mihalcea and Ted Pedersen (2005).
- Word Sense Disambiguation: Algorithms and Applications, edited by Eneko Agirre and Philip Edmonds (2006), Springer. Covers the entire field with chapters contributed by leading researchers. www.wsdbook.org site of the book
- Bar-Hillel, Yehoshua. 1964. Language and Information. New York: Addison-Wesley.
- Edmonds, Philip & Adam Kilgarriff. 2002. Introduction to the special issue on evaluating word sense disambiguation systems. Journal of Natural Language Engineering, 8(4):279-291.
- Edmonds, Philip. 2005. Lexical disambiguation. The Elsevier Encyclopedia of Language and Linguistics, 2nd Ed., ed. by Keith Brown, 607-23. Oxford: Elsevier.
- Ide, Nancy & Jean Véronis. 1998. Word sense disambiguation: The state of the art. Computational Linguistics, 24(1):1-40.
- Jurafsky, Daniel & James H. Martin. 2000. Speech and Language Processing. New Jersey, USA: Prentice Hall.
- Litkowski, K. C. 2005. Computational lexicons and dictionaries. In Encyclopaedia of Language and Linguistics (2nd ed.), K. R. Brown, Ed. Elsevier Publishers, Oxford, U.K., 753—761.
- Manning, Christopher D. & Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. http://nlp.stanford.edu/fsnlp/
- Mihalcea, Rada. 2007. Word sense disambiguation. Encyclopedia of Machine Learning. Springer-Verlag.
- Resnik, Philip and David Yarowsky. 2000. Distinguishing systems and distinguishing senses: New evaluation methods for word sense disambiguation, Natural Language Engineering, 5(2):113-133. http://www.cs.jhu.edu/~yarowsky/pubs/nle00.ps
- Yarowsky, David. 2001. Word sense disambiguation. Handbook of Natural Language Processing, ed. by Dale et al., 629—654. New York: Marcel Dekker.
- Kwong, O. New Perspectives on Computational and Cognitive Strategies for Word Sense Disambiguation. — Springer, 2012. — 118 p. — ISBN 9781461413202.