Автоматическое получение размеченного корпуса
Если методы обучения без учителя в проблеме разрешения многозначности полагаются на неаннотированный (не размеченный) корпус, то обучение с учителем коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов обучения. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.
Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.
Существующие решения
Одним из решений является алгоритм, разработанный Радой Майхелсиа[1] и основанный на получении контекстов из выдачи поисковых движков (типа Google или Yandex) с помощью знаний, имеющихся в тезаурусе. Весь процесс получения корпуса состоит из трёх этапов: препроцессинг, поиск и постпроцессинг.
- Препроцессинг. Для каждого слова w и его значения #i берутся их однозначные синонимы, а также слова, полученные после обработки глосса (словарного толкования, грамматических пояснений, примеров использования слова в различных контекстах и т. п.)
- Поиск. Затем, на стадии поиска формируются поисковые запросы, помогающие найти именно те контексты, в которых данное слово присутствует в нужном нам значении.
- Постпроцессинг. После этого, полученные контексты обрабатываются, фильтруются плохие и т. д.
Эффективность метода позволяет получать большое количество контекстов, примерно 91 % из которых являются правильными, что является довольно высоким результатом, достаточным для обучения машины. Также, у этого метода существует последователи и предшественники (например, алгоритм Leacock и Chodorow), однако все они так и не сравнились с ним по эффективности.
Второй метод, придуманный Яровски[2] и часто называемый bootstrapping, предлагает, начиная с небольшого количества вручную определённых примеров (так называемым seed examples), автоматически и итерационно расширять классы, разделяя оставшиеся контексты в неразмеченном тексте на классы, получая, таким образом, обучающую выборку. При этом за аксиому берутся такие вещи, как «one sense per collocation» и «one sense per discourse». Однако, этот способ также менее точен, чем способ Mihalcea, так как в данном случае не получаются однозначные контексты.
Также, существует ещё 3 метода[3], практически неприменимые к русскому языку:
- каталоги веб-страниц (такие как Open Directory Project);
- выравненные билингвальные тексты (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
- коллаборативная работа в стиле Вики (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за не профессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).
Итог
Результаты
Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом майнинга интернета для разрешения лексической многозначности. Стоит привести некоторые обнадёживающие результаты:
- В некоторых экспериментах, качества данных из интернета практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных синонимов и бутстреппинга из SemCor’овских примеров[4] и примеры, полученные из ODP[5]. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
- Также, было показано[6], что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники обучения без учителя, участвовавшие в Senseval-2.
- Примеры из интернета принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2[7].
Проблемы
Однако, также существуют определённые проблемы и трудности, напрямую связанные с получением подобного корпуса:
- Хорошее качество полученных примеров (то есть, правильная принадлежность примеров к классам значений) не обязательно обеспечивает высокую точность классификатора[8].
- Наиболее объективные эксперименты по оценке качества полученных примеров показали[9], что обучение на этих примеров существенно повышает уровень точности разрешения многозначности, однако, тем не менее, результаты далеки от идеальных: они не то, что хуже полученных вручную, — она даже не превышают качество полученное с помощью most-frequent-sense baseline.
- Результаты не всегда удаётся повторить: те же самые или похожие методы могут привести к различным результатам в разных экспериментах. В качестве сравнения можно сравнить эксперименты: Mihalcea (2002[10]) с Agirre и Martínez (2004[9]), или Agirre и Martínez (2000[8]) с Mihalcea и Moldovan (1999[11]). Результаты, полученные с помощью интернета, показали, что данные очень чувствительны даже к небольшим изменениям в обучающем алгоритме, даже к дате получения корпуса (выдача поисковых машин постоянно меняется), и к незаметным эвристическим проблемам (например, различия в фильтрах по отбрасыванию части полученных примеров).
- На результаты сильно влияет такое явление как «перекос» (то есть, на соотношение частотностей примеров одних значений слова по сравнению с другими[9]). Так до конца неясно, является ли это проблемой только информации из Интернета или это проблема, присущая обучению с учителем, или же это проблема того, каким образом методы оцениваются (в самом деле, сравнительно небольшое количество данных Senseval вполне возможно является не такой уж и репрезентативной вещью по сравнению со всем интернетом в качестве корпуса).
- В любом случае, данные из интернета обладают перекосом, потому что запросы к поисковым системам непосредственно ограничивают множество полученных контекстов. Существуют подходы для смягчения этого эффекта, такие как: использование нескольких seeds или запросов для каждого из значений слова[10] или присваивание значениям соответствующих категорий из каталогов веб-сайтов[5]; однако эта проблема ещё далека от полного разрешения.
- У любого полученного корпуса контекстов не всегда ясен вопрос с лицензией по его использованию (правовая составляющая неясна).
Будущее области
Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:
- Интернет, как социальная сеть, несколько раз был успешно использован для коллаборативной аннотации анонимными пользователями (проект OMWE, Open Mind Word Expert project)[12]: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и многоязыковой задачи).
- Интернет также использовался для обогащения значений WordNet'a знаниями о теме корпуса (domain-specific information): так называемые topic signatures[13] and Web directories[5], которые успешно применялись для разрешения многозначности.
- Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов[14][15].
Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, мало известно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета параллельные корпусы, хотя и эффективные алгоритмы для обработки таких корпусов уже существуют. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.
Примечания
- ↑ Rada Mihalcea, Dan Moldovan. An Automatic method for generating sense tagged corpora.
- ↑ Yarowsky, D. «Unsupervised Word Sense Disambiguation Rivaling Supervised Methods». Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189—196, 1995.
- ↑ Word Sense Disambiguation: Algorithms and Applications, edited by Eneko Agirre and Philip Edmonds (2006), Springer.
- ↑ Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
- ↑ 1 2 3 Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatic association of Web directories to word senses. Computational Linguistics, 29(3): 485—502.
- ↑ Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automati- cally retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
- ↑ Mihalcea, Rada. 2002a. Word sense disambiguation with pattern learning and automatic feature selection. Natural Language Engineering, 8(4): 348—358.
- ↑ 1 2 Agirre, Eneko & David Martínez. 2000. Exploring automatic word sense disambiguation with decision lists and the Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxembourg, 11-19.
- ↑ 1 2 3 Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automatically retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
- ↑ 1 2 Mihalcea, Rada. 2002b. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
- ↑ Mihalcea, Rada & Dan Moldovan. 1999. An automatic method for generating sense tagged corpora. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, U.S.A., 461—466.
- ↑ Chklovski, Tim & Rada Mihalcea. 2002. Building a sense tagged corpus with Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Phila- delphia, U.S.A., 116—122.
- ↑ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriching very large ontologies using the WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germany.
- ↑ Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.
- ↑ Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009. зав (russian) Архивная копия от 5 июля 2010 на Wayback Machine