
Google Книги — масштабный проект компании Google, запущенный в 2004 году и направленный на оцифровку и публикацию в интернете миллионов печатных произведений. Основная идея заключалась в том, чтобы сделать все когда-либо напечатанные книги доступными для чтения и поиска в интернете, обеспечив пользователям неограниченный доступ к знаниям. В 2010 году Google сообщила, что, по её оценкам, в мире насчитывается более 129 млн печатных изданий, которые компания планирует полностью оцифровать за 10 лет.
Параллельный текст (битекст) — текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» — это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются «параллельным корпусом». Выравнивание параллельного корпуса на уровне предложений является необходимой предпосылкой для различных аспектов лингвистических исследований. В процессе перевода предложения могут разделяться, сливаться, удаляться, вставляться или менять последовательность. В связи с этим выравнивание часто становится сложной задачей.

Open Library — проект виртуальной библиотеки, созданный в 2006 году некоммерческой организацией «Архив Интернета». OL ставит перед собой две главные цели — предоставить пользователю максимальное количество информации о запрашиваемом издании, через pdf-версию или ссылку для его приобретения, а также собрать информацию о каждой когда-либо выпущенной книге. Над проектом работали, среди прочих, создатель «Архива» Брюстер Кейл и американский интернет-активист Аарон Шварц. Финансирование осуществлялось за счёт грантов библиотеки штата Калифорния и Kahle/Austin Foundation.
Open Content Alliance (OCA) — консорциум коммерческих и некоммерческих организаций, занимающийся оцифровкой печатных изданий для свободного распространения в интернете. Создан в октябре 2005 года в качестве альтернативы проекту Google Books. Главными партнёрами-сооснователями стали Архива Интернета, Yahoo, библиотеки Университета Торонто и Калифорнийского университета, а также Национальные архивы Великобритании. Спустя несколько недель к проекту присоединился Microsoft, Research Libraries Group, Biodiversity Heritage Library, Библиотеки и архивы Смитсоновского института. К 2008 году в OCA входило около 80 организаций. К 2010 году работа OCA окончательно остановилась из-за выхода из консорциума Microsoft и Yahoo. На 2023 год OCA больше не занимается оцифровкой материалов.
OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом.
Брита́нский национа́льный ко́рпус — это корпус текстов из 100 миллионов слов, содержащий образцы письменного и разговорного британского английского языка из широкого круга источников. Корпус охватывает британский английский конца XX века, представленный широким разнообразием жанров, и задуман как образец типичного разговорного и письменного британского английского языка того времени.

TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигая качества человеческого восприятия. Применяется как для исследований, так и для разработки собственных продуктов Google. Основной API для работы с библиотекой реализован для Python, также существуют реализации для R, C#, C++, Haskell, Java, Go, JavaScript и Swift.

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.
Речево́й ко́рпус — база данных аудиофайлов и транскрипций текстов, разновидность корпуса текстов. В речевых технологиях речевые корпуса используются, среди прочего, для создания акустических моделей. В лингвистике речевые корпуса используются для исследований фонетики, диалектологии, конверсационного анализа и в других областях.
Национальный корпус американского английского — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и поверхностный синтаксический анализ.

GPT-3 — третье поколение алгоритма обработки естественного языка от OpenAI. На сентябрь 2020 года это самая крупная и продвинутая языковая модель в мире. Модель, по заявлению разработчиков, может быть использована для решения «любых задач на английском языке».

DALL-E — нейронная сеть НКО OpenAI, созданная при финансовой поддержке Microsoft, способная генерировать высококачественные изображения, исходя из текстовых описаний на английском языке. По заявлениям ряда СМИ и экспертов в области анализа данных, данная нейронная сеть совершила значимый прорыв в области нейронных сетей.
Языковáя модель — это распределение вероятностей по последовательностям слов. Для любой последовательности слов длины m языковая модель присваивает вероятность
всей последовательности. Языковые модели генерируют вероятности путём обучения на корпусе текстов на одном или нескольких языках. Учитывая, что языки могут использоваться для выражения огромного множества верных предложений, языковое моделирование сталкивается с проблемой задания ненулевых вероятностей лингвистически верным последовательностям, которые могут никогда не встретиться в обучающих данных. Для преодоления этой проблемы было разработано несколько подходов к моделированию, таких как применение марковских цепей или использование нейронных архитектур, таких как рекуррентные нейронные сети или трансформеры.
Большая языковая модель — это языковая модель, состоящая из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.
PaLM — это большая языковая модель на основе архитектуры трансформера с 540 миллиардов параметров, разработанная Google AI. Исследователи также создали версии моделеи PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба.
Техника подсказок — концепция искусственного интеллекта (ИИ), в частности обработки естественного языка (НЛП). В технике подсказок описание задачи встраивается во входные данные, например, в виде вопроса, а не даётся неявно. Техника подсказок обычно работает путём преобразования одной или нескольких задач в набор данных на основе подсказок и обучения языковой модели с помощью «обучения на основе подсказок» или просто «обучения c подсказками». Инжиниринг подсказок может работать с большой «замороженной» предварительно обученной языковой моделью, где изучается только представление подсказки с использованием таких методов, как «настройка префикса» или «настройка с подсказками».
Генеративный искусственный интеллект — это тип системы искусственного интеллекта (ИИ), способной генерировать текст, изображения или другие медиаданные в ответ на подсказки. Генеративный ИИ использует генеративные модели, такие как большие языковые модели, для статистической выборки новых данных на основе набора обучающих данных, который использовался для их создания.

Илья́ Суцке́вер — канадский и американский учёный в области информатики, искусственного интеллекта и машинного обучения. Сооснователь компании OpenAI.

Generative pre-trained transformer или GPT — это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Large-scale Artificial Intelligence Open Network (LAION) — немецкая некоммерческая организация, заявившая о своей цели «сделать крупномасштабные модели машинного обучения, наборы данных и связанный с ними код доступными для широкой публики». Она наиболее известна тем, что выпустила ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые были использованы для обучения ряда известных моделей преобразования текста в изображение, включая Stable Diffusion и Imagen.