Коллаборативная фильтрация, совместная фильтрация — это один из методов построения прогнозов (рекомендаций) в рекомендательных системах, использующий известные предпочтения (оценки) группы пользователей для прогнозирования неизвестных предпочтений другого пользователя. Его основное допущение состоит в следующем: те, кто одинаково оценивал какие-либо предметы в прошлом, склонны давать похожие оценки другим предметам и в будущем. Например, с помощью коллаборативной фильтрации музыкальное приложение способно прогнозировать, какая музыка понравится пользователю, имея неполный список его предпочтений. Прогнозы составляются индивидуально для каждого пользователя, хотя используемая информация собрана от многих участников. Тем самым коллаборативная фильтрация отличается от более простого подхода, дающего усреднённую оценку для каждого объекта интереса, к примеру, базирующуюся на количестве поданных за него голосов. Исследования в данной области активно ведутся и в наше время, что также обуславливается и наличием нерешённых проблем в коллаборативной фильтрации.
Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.
Латентно-семантический анализ (ЛСА) — это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам.
Сте́мминг — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова.
Разрешение лексической многозначности — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентности текста, при анализе умозаключений.
Латентное размещение Дирихле — применяемая в машинном обучении и информационном поиске порождающая модель, позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа. LDA является одним из методов тематического моделирования и впервые был представлен в качестве графической модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 году.
В статистике под латентными или скрытыми переменными понимают такие переменные, которые не могут быть измерены в явном виде, а могут быть только выведены через математические модели с использованием наблюдаемых переменных. Скрытые переменные используются во многих областях, включая психологию, экономику, машинное обучение, биоинформатику, обработку естественного языка и социальные науки.
Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.
Дистрибути́вная сема́нтика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных.
Размещение патинко — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов. От более ранних методов алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.
Йёрген Педерсен Грам — датский математик. Основные направления исследований — математическая статистика, теория чисел и линейная алгебра.
Нэнси Энн Линч — американский учёный, профессор компьютерных науки и инженерии Массачусетского технологического института, известная прежде всего автоматами ввода-вывода — обобщением автоматов Мили на распределённые алгоритмы, позволяющим формально демонстрировать их корректность с помощью иерархических доказательств. На сегодняшний день существует много разновидностей автоматов ввода-вывода: временны́х, гибридных, вероятностных и динамических, все созданы самой Линч и её сотрудниками. Последними на 2016 год были предложены динамические автоматы ввода-вывода, моделирующие динамические системы и позволяющие создавать и уничтожать автоматы по мере вычисления, что существенно повышает их выразительность и приближает формализм к современному программному обеспечению. Динамические автоматы ввода-вывода могут объединяться в иерархическую систему, запускаться параллельно, переименовывать и скрывать события, порождать новые автоматы и поддерживать монотонность через семантическую типизацию.
Серге́й Арутю́нович (Артемьевич) Айвазя́н — советский и российский учёный-экономист, лауреат премии имени Л. В. Канторовича (2017).
Семанти́ческий механи́зм рассужде́ний, семанти́ческая машина формирования рассуждений или движо́к пра́вил — это часть программного обеспечения, способная вывести логические умозаключения из набора адекватно формализованных базовых знаний или аксиом. Понятие семантического механизма рассуждений обобщает понятие машины вывода, предоставляя более богатый набор механизмов для работы. Правила вывода обычно определяются с помощью языка онтологий и часто языков описательной логики. Многие семантические механизмы рассуждений используют логику первого порядка для выполнения рассуждений; вывод обычно происходит путём прямой и обратной цепочек рассуждений. Существуют также примеры вероятностных механизмов рассуждений, включая неаксиоматическую систему рассуждений Пей Ванга и вероятностные логические сети.
Джордж Уильям Фурнас — американский академик, профессор и заместитель декана по учебной стратегии в школе информации в университете штата Мичиган, известный своими работами над семантическим анализом и человеко-коммуникационными системами.
Непараметрическая статистика — раздел статистики, который не основан исключительно на параметризованных семействах вероятностных распределений. Непараметрическая статистика включает в себя описательную статистику и статистический вывод.
Снижение размерности в задачах статистики, машинного обучения и теории информации — набор техник преобразования данных, направленных на уменьшение числа переменных путём выявления главных переменных; в общем случае может быть разделено на отбор признаков и выделение признаков. Снижение размерности наборов данных позволяет снизить требуемое время и требуемую память для обработки набора, улучшить скорость моделей машинного обучения за счёт удаления мультиколлинеарности, проще представить данные визуально.
Неотрицательное матричное разложение (НМР), а также неотрицательное приближение матрицы, это группа алгоритмов в мультивариантном анализе и линейной алгебре, в которых матрица V разлагается на (обычно) две матрицы W и H, со свойством, что все три матрицы имеют неотрицательные элементы. Эта неотрицательность делает получившиеся матрицы более простыми для исследования. В приложениях, таких как обработка спектрограмм аудиосигнала или данных мускульной активности, неотрицательность свойственна рассматриваемым данным. Поскольку задача в общем случае неразрешима, её обычно численно аппроксимируют.
Вероятностный классификатор — классификатор, который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе или когда классификаторы собираются в ансамбли.
Динамический сетевой анализ (DNA) — это развивающаяся научная область, которая объединяет традиционный анализ социальных сетей, анализ связей, социальное моделирование и многоагентные системы в рамках науки о сетях.