Поверхностно-синтаксический анализ

Поверхностно-синтаксический анализ (англ. shallow parsing, chunking, light parsing) — метод анализа предложений, в котором сначала идентифицируют составные части предложения (существительные, глаголы, прилагательные и т. п), а затем связывают их в элементы высшего порядка, которые имеют грамматическое значение (именные группы или фразы, глагольные группы и т. п.).

В то время как простые алгоритмы поверхностно-синтаксического анализа связывают составные части, используя элементарные шаблоны поиска (например, регулярные выражения), подходы на основе машинного обучения (классификаторы, тематическое моделирование и т. п.) могут учитывать контекстную информацию и формировать фрагменты, лучше отражая семантические связи между основными словами^[1]. Таким образом, эти более совершенные методы решают проблему того, что сочетание элементарных составляющих может иметь разные значения на высшем уровне в зависимости от контекста предложения.

Схожий с лексическим анализом в компьютерных языках, этот метод широко применяется в обработке естественного языка.

Под названием «гипотеза поверхностной структуры» (англ. Shallow Structure Hypothesis), его используют, чтобы дать объяснение, почему люди, изучающие второй язык, часто не могут правильно разобрать сложные предложения^[2].

См. также

Синтаксический анализ
Разметка семантических ролей^[англ.]
Распознавание именованных сущностей^[англ.]

Примечания

↑ Jurafsky, Daniel. Speech and Language Processing / Daniel Jurafsky, James H. Martin. — Singapore : Pearson Education Inc., 2000. — P. 577—586.
↑ Clahsen, Felser, Harald, Claudia (2006). "Grammatical Processing in Language Learners". Applied Psycholinguistics. 27: 3—42. doi:10.1017/S0142716406060024.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

Литература

NP Chunking (State of the art) (неопр.). Association for Computational Linguistics^[англ.]. Дата обращения: 30 января 2016. Архивировано 4 марта 2016 года. (англ.)
Parsing By Chunks (PDF), Kluwer Academic Publishers, 1991, pp. 257—278 {{citation}}: |first1= пропущен |last1= () Архивная копия от 6 ноября 2020 на Wayback Machine. (англ.)

Ссылки

Apache OpenNLP Архивная копия от 13 апреля 2012 на Wayback Machine OpenNLP содержит реализацию поверхностного анализатора.
GATE General Architecture for Text Engineering Архивная копия от 2 мая 2012 на Wayback Machine GATE^[англ.] содержит реализацию поверхностного анализатора.
Поверхностный анализ Архивная копия от 14 марта 2021 на Wayback Machine NLTK
Демонстрация Архивная копия от 31 октября 2015 на Wayback Machine поверхностного анализатора Illinois Shallow Parser

[1] Jurafsky, Daniel. Speech and Language Processing / Daniel Jurafsky, James H. Martin. — Singapore : Pearson Education Inc., 2000. — P. 577—586.

[2] Clahsen, Felser, Harald, Claudia (2006). "Grammatical Processing in Language Learners". Applied Psycholinguistics. 27: 3—42. doi:10.1017/S0142716406060024.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[1]

[2]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Поверхностно-синтаксический анализ

Содержание

См. также

Примечания

Литература

Ссылки

Похожие исследовательские статьи