
Викислова́рь — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Изначально появился на английском языке 12 декабря 2002 года.
Семанти́ческая паути́на — общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.
Вопросно-ответная система — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Синтакси́ческий ана́лиз в лингвистике и информатике — процесс сопоставления линейной последовательности лексем естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора. Обычно применяется совместно с лексическим анализом.
Парсер, или синтаксический анализатор, — часть программы, преобразующей входные данные в структурированный формат. Парсер выполняет синтаксический анализ текста.
Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста.
ANTLR — генератор нисходящих анализаторов для формальных языков. ANTLR преобразует контекстно-свободную грамматику в виде РБНФ в программу на C++, Java, C#, JavaScript, Go, Swift, Python. Используется для разработки компиляторов, интерпретаторов и трансляторов.
JAXP — набор абстрактных API, упрощающих обработку XML данных с помощью программ, написанных на Java. Усиливает стандартные анализаторы SAX и DOM. Начиная с версии 1.1 поддерживает стандарт XSLT. JAXP обеспечивает поддержку пространств имен (namespace), то есть имеется возможность работать с DTD. JAXP дает приложению возможность производить лексический разбор и модификацию документов XML независимо от конкретной реализации обработки XML.
Грамматика, построенная на определённых предложениях — это способ построения грамматики в логических языках программирования, например, Пролог. DC-грамматика обычно ассоциируется с Прологом, но и другие языки, например, Mercury, также могут использовать DC-грамматику. Словосочетание «определенные предложения» используется в названии потому, что эта грамматика основывается на дизъюнкте Хорна в логике первого порядка.
Альфред Ахо — канадский учёный-информатик, внесший заметный вклад в теорию и практику компиляции языков программирования, тьюринговский лауреат (2020). Член НАН США (2022), эмерит-профессор Колумбийского университета. Среди основных работ — «Теория синтаксического анализа, перевода и компиляции» и «облегчённая» версия книги — «Компиляторы: принципы, технологии и инструменты».

Разрешение лексической многозначности — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентности текста, при анализе умозаключений.
N-грамма — последовательность из n элементов. С семантической точки зрения это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется - триграмма. Не менее четырёх и выше элементов обозначается как N-грамма, N заменяется на количество последовательных элементов.

General Architecture for Text Engineering — система обработки естественного языка с открытым исходным кодом, использующая наборы компонентов на языке Java. Система изначально была разработана в Университете Шеффилда и развивается с 1995 г.

AskNet — российская интеллектуальная метапоисковая система, первая вопросно-ответная система в Рунете. Вопросно-ответная поисковая система система AskNet предназначена для поиска текстовой информации по запросу пользователя на естественном языке. В настоящее время поиск ответов на вопросы пользователей поддерживается для русско- и (или) англоязычных запросов пользователей и текстов. Проект стартовал в 1999 году в ООО «Стокона». Вопросно-ответная поисковая система AskNet Search принимала участие и заняла первое место в тестах дорожки вопросно-ответного поиска конференции РОМИП в 2006 году.

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.
Национальный корпус американского английского — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и поверхностный синтаксический анализ.
Машинный перевод на основе трансформации является разновидностью машинного перевода (MП). В настоящее время это один из наиболее распространённых методов машинного перевода. В отличие от более простой модели прямого MП, MП на основе трансформации разделяет процесс перевод на три этапа: анализ текста на исходном языке для определения его грамматической структуры, перевод результирующей структуры в структуру, подходящую для производства текста на языке перевода, и генерацию текста. Таким образом, системы МП на основе трансформации способны использовать знания исходного языка и языка перевода.
СинТагРус — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов.
Понимание естественного языка (NLU) или интерпретация естественного языка (NLI) — подраздел обработки естественного языка в искусственном интеллекте, который имеет дело с машинным пониманием текста. Понимание естественного языка является AI-полной задачей.
Большая языковая модель — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.