
Компью́терная лингви́стика — научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Викислова́рь — свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке. Один из проектов фонда «Викимедиа». Изначально появился на английском языке 12 декабря 2002 года.
Вопросно-ответная система — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.

Синтакси́ческий ана́лиз в лингвистике и информатике — процесс сопоставления линейной последовательности лексем естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора. Обычно применяется совместно с лексическим анализом.
NLP — многозначная аббревиатура:
- англ. Natural Language Processing — обработка естественного языка
- англ. NonLinear Programming — нелинейное программирование
- англ. Neuro-Linguistic Programming — нейролингвистическое программирование (НЛП)
Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста.
Ана́лиз тона́льности те́кста — класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте.
Библиотека NLTK, или NLTK, — пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python. Содержит графические представления и примеры данных. Сопровождается обширной документацией, включая книгу с объяснением основных концепций, стоящих за теми задачами обработки естественного языка, которые можно выполнять с помощью данного пакета.
N-грамма — последовательность из n элементов. С семантической точки зрения это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется - триграмма. Не менее четырёх и выше элементов обозначается как N-грамма, N заменяется на количество последовательных элементов.

General Architecture for Text Engineering — система обработки естественного языка с открытым исходным кодом, использующая наборы компонентов на языке Java. Система изначально была разработана в Университете Шеффилда и развивается с 1995 г.
Векторное представление — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам из некоторого словаря векторов из
для
, значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика.
Неструктури́рованные да́нные — данные, которые не соответствуют заранее определённой модели данных, и, как правило, представлены в форме текста с датами, цифрами, фактами, расположенными в нём в произвольной форме. Такие данные трудно анализировать, особенно при помощи традиционных программ, предназначенных для работы со структурированными данными.
Word2vec — общее название для совокупности моделей на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке. Используется для анализа семантики естественных языков, основанный на дистрибутивной семантике, машинном обучении и векторном представлении слов. Программное обеспечение под названием «word2vec» было разработано группой исследователей Google в 2013 году. Инструменты для создания векторно-семантических моделей существовали и ранее, но word2vec стал первой популярной реализацией: в первую очередь из-за удобства использования, открытого исходного кода и скорости работы.
Расширенная сеть переходов — технология грамматической и семантической обработки текстов, предложенная американским лингвистом Вудсом в 1970.

Макото Нагао — японский учёный, специалист по компьютерным наукам. Автор исследований и открытий в различных областях: машинный перевод, обработка естественного языка, распознавание образов, обработка изображений и библиотековедение. Был 23-м ректором университета Киото (1997—2003) и 14-м директором Национальной парламентской библиотеки в Японии (2007—2012).
PyTorch — фреймворк машинного обучения для языка Python с открытым исходным кодом, созданный на базе Torch. Используется для решения различных задач: компьютерное зрение, обработка естественного языка. Разрабатывается преимущественно группой искусственного интеллекта Facebook. Также вокруг этого фреймворка выстроена экосистема, состоящая из различных библиотек, разрабатываемых сторонними командами: PyTorch Lightning и Fast.ai, упрощающие процесс обучения моделей, Pyro, модуль для вероятностного программирования, от Uber, Flair, для обработки естественного языка и Catalyst, для обучения DL и RL моделей.

Библиотека Apache OpenNLP — это основанный на машинном обучении инструментарий для обработки текста на естественном языке. Библиотека поддерживает наиболее распространенные функции для обработки естественного языка, такие как определение языка, токенизация, сегментация предложений, тегирование частей речи, выделение именованных объектов, разбиение на фрагменты, синтаксический анализ и разбиение по ключевым словам. Решения этих задач обычно требуются для более сложных операции по обработке текста.

Хайдельбергский институт теоретических исследований — частный некоммерческий исследовательский институт, расположенный в Хайдельберге, Германия. Был основан в 2010 году соучредителем компании SAP Клаусом Чира через его фонд «Klaus Tschira Stiftung».
Поверхностно-синтаксический анализ — метод анализа предложений, в котором сначала идентифицируют составные части предложения, а затем связывают их в элементы высшего порядка, которые имеют грамматическое значение.
Понимание естественного языка (NLU) или интерпретация естественного языка (NLI) — подраздел обработки естественного языка в искусственном интеллекте, который имеет дело с машинным пониманием текста. Понимание естественного языка является AI-полной задачей.