Частеречная разметка

Частеречная разметка (автоматическая морфологическая разметка, POS tagging, part-of-speech tagging) — этап автоматической обработки текста, задачей которого является определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов. POS tagging является одним из первых этапов компьютерного анализа текста.

Алгоритмы POS tagging делятся на две группы: основанные на правилах и вероятностные.

Могут использоваться скрытые марковские модели.^[]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Похожие исследовательские статьи

WackoWiki — вики-движок на PHP. В настоящий момент выпущена версия R6.0.

<span class="mw-page-title-main">Вики</span> веб-сайт, содержимое которого могут редактировать сами пользователи

Ви́ки — веб-сайт, данные которого пользователи могут самостоятельно изменять с помощью инструментов, предоставляемых самим сайтом. Форматирование текста и вставка различных объектов в текст производятся с использованием вики-разметки. В частности, на базе этих принципов построена Википедия и другие проекты Фонда Викимедиа.

Язы́к разме́тки (текста) в компьютерной терминологии — набор символов или последовательностей символов, вставляемых в текст для передачи информации о его отображении или строении. Принадлежит классу компьютерных языков. Текстовый документ, написанный с использованием языка разметки, содержит не только сам текст, но и дополнительную информацию о различных его участках — например, указание на заголовки, выделения, списки и т. д. В более сложных случаях язык разметки позволяет вставлять в документ интерактивные элементы и содержание других документов.

HTML — стандартизированный язык гипертекстовой разметки документов для просмотра веб-страниц в браузере. Веб-браузеры получают HTML документ от сервера по протоколам HTTP/HTTPS или открывают с локального диска, далее интерпретируют код в интерфейс, который будет отображаться на экране монитора.

Викислова́рь — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Изначально появился на английском языке 12 декабря 2002 года.

Фолксоно́мия — народная классификация, практика совместной категоризации информации посредством произвольно выбираемых меток, называемых тегами.

Тег, те́ги. В SGML — элемент языка разметки гипертекста. Текст, содержащийся между начальным и конечным тегом, отображается и размещается в соответствии со свойствами, указанными в начальном теге.

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.

Вёрстка веб-страниц — создание структуры html-кода, размещающего элементы веб-страницы в окне браузера, согласно разработанному макету, таким образом, чтобы элементы дизайна выглядели аналогично макету.

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русскоязычных текстов.

Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики.

Windows IoT, ранее — Windows Embedded — семейство встраиваемых операционных систем Microsoft Windows для применения в специализированных устройствах. Существует несколько категорий продуктов для создания широкого спектра устройств, начиная от простых контроллеров реального времени и заканчивая POS-системами, такими как киоск самообслуживания или кассовый аппарат и промышленными системами. Windows Embedded доступна через специализированных дистрибьюторов Microsoft и должна поставляться конечному потребителю только вместе с устройством. Отличается более выгодной ценой по сравнению с настольными версиями, возможностями блокировки образа (Lockdown), продленным сроком доступности и продажи.

Разрешение лексической многозначности — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентности текста, при анализе умозаключений.

Вики-разметка — язык разметки, который используется для оформления текста на веб-сайтах и позволяет упростить доступ к возможностям языка HTML. Страницы, оформленные с применением вики-разметки, предварительно преобразуются в HTML для просмотра в веб-браузере, преобразование реализует специальное программное обеспечение — вики-движок.

General Architecture for Text Engineering — система обработки естественного языка с открытым исходным кодом, использующая наборы компонентов на языке Java. Система изначально была разработана в Университете Шеффилда и развивается с 1995 г.

В лингвистике ко́рпус — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.

<span class="mw-page-title-main">AskNet</span>

AskNet — российская интеллектуальная метапоисковая система, первая вопросно-ответная система в Рунете. Вопросно-ответная поисковая система система AskNet предназначена для поиска текстовой информации по запросу пользователя на естественном языке. В настоящее время поиск ответов на вопросы пользователей поддерживается для русско- и (или) англоязычных запросов пользователей и текстов. Проект стартовал в 1999 году в ООО «Стокона». Вопросно-ответная поисковая система AskNet Search принимала участие и заняла первое место в тестах дорожки вопросно-ответного поиска конференции РОМИП в 2006 году.

Брита́нский национа́льный ко́рпус — это корпус текстов из 100 миллионов слов, содержащий образцы письменного и разговорного британского английского языка из широкого круга источников. Корпус охватывает британский английский конца XX века, представленный широким разнообразием жанров, и задуман как образец типичного разговорного и письменного британского английского языка того времени.

<span class="mw-page-title-main">Коранический корпус арабского языка</span>

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.

СинТагРус — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.