Си́нтаксис — раздел лингвистики, в котором изучаются номинативные и коммуникативные языковые единицы: предложение и словосочетание. Синтаксис в буквальном переводе означает не только составление, но и упорядочивание, координирование, соединение слов в связный текст. Этот раздел науки о языке изучает лексическое и грамматическое значение словосочетаний, а также виды синтаксической связи.
Маши́нный перево́д — процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Ранние попытки использовать компьютеры для перевода строились на основе запрограммированных словарей и лингвистических правил, более современные строятся на основе вероятностного подхода — это статистический и нейронный машинный перевод.
Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.
Теория «Смысл — Текст» — лингвистическая концепция, созданная И. А. Мельчуком и представляющая язык как многоуровневую модель преобразований смысла в текст и обратно ; отличительной особенностью этой теории является также использование синтаксиса зависимостей. Значительна роль, отводимая лексическому компоненту модели — Толково-комбинаторному словарю.
Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русскоязычных текстов.
Типология — раздел лингвистики, занимающийся выяснением наиболее общих закономерностей различных языков, не обязательно связанных между собой общим происхождением или взаимным влиянием. Типология стремится выявить наиболее вероятные явления в различных языках. В случае если некоторое явление выявляется в представительной группе языков, оно может считаться типологической закономерностью, применимой к языку как таковому.
Часто́тный слова́рь — набор слов данного языка вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту, по группам слов, по типичности, и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.
Зоя Михайловна Шаляпина — российский лингвист и педагог. Заведующий Отделом языков народов Азии и Африки Института востоковедения РАН, кандидат филологических наук. Имеет более 150 научных публикаций.
Ирина Платоновна Севбо — советский и украинский лингвист, философ, общественный деятель, доктор филологических наук.
Языкова́я спосо́бность — специфический психофизиологический механизм, формирующийся у носителя языка на основе нейрофизиологических предпосылок и под влиянием опыта речевого общения.
General Architecture for Text Engineering — система обработки естественного языка с открытым исходным кодом, использующая наборы компонентов на языке Java. Система изначально была разработана в Университете Шеффилда и развивается с 1995 г.
Пи́сьменный ко́рпус тата́рского языка́ — электронный корпус татарского языка, доступный для онлайн пользования. Корпус предназначен интересующимся системой, состоянием и перспективой татарского языка. Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.
Доступен на татарском, русском и английском языках.
В лингвистике ко́рпус — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.
Брита́нский национа́льный ко́рпус — это корпус текстов из 100 миллионов слов, содержащий образцы письменного и разговорного британского английского языка из широкого круга источников. Корпус охватывает британский английский конца XX века, представленный широким разнообразием жанров, и задуман как образец типичного разговорного и письменного британского английского языка того времени.
Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.
Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.
Национальный корпус американского английского — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и поверхностный синтаксический анализ.
СинТагРус — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов.
Герольд Георгиевич Белоногов — известный советский и российский ученый в области информатики, компьютерной лингвистики, автоматической обработки текстов, доктор технических наук (1968), профессор, академик Международной академии информационных процессов и технологий. Он был одним из основоположников отечественной информатики, признанный как у нас в стране, так и за рубежом. В 1994—95 годах состоял членом ASIS. В 1996 году Международный биографический центр присвоил ему звание «Международный человек года» за выдающиеся успехи в области машинного перевода и наградил памятной медалью.
Санкт-Петербургский корпус агиографических текстов (СКАТ) — это электронный корпус текстов по памятникам древнерусской агиографической литературы, созданный на кафедре математической лингвистики филологического факультета Санкт-Петербургского государственного университета. Работа над корпусом началась в 70-х гг. XX в., и на данный момент корпус содержит более 50 житий общим объемом свыше 500 тысяч словоупотреблений.