Дискриминантный анализ

Дискримина́нтный ана́лиз — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (то есть «дискриминируют») возникающие наборы данных (так называемые «группы»). В отличие от кластерного анализа в дискриминантном анализе группы известны априори.

Методы дискриминантного анализа

Линейный дискриминант Фишера
Канонический или линейный дискриминантный анализ (англ. Linear Discriminant Analysis, LDA^[1]).
Логистическая регрессия.

Примеры

Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: поступающий в колледж, поступающий в профессиональную школу, отказывающийся от дальнейшего образования.

Медик может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие переменные лучше показывают, что пациент, вероятно, выздоровел полностью, частично или совсем не выздоровел.

См. также

Теорема Байеса

Примечания

↑ Library: Linear Discriminant Analysis method (недоступная ссылка)

Литература

Боровиков В. П. Искусство анализа данных, 2-е издание, ПИТЕР, 2005

Ссылки

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Похожие исследовательские статьи

Стати́стика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме.

Функциона́льный ана́лиз — раздел анализа, в котором изучаются бесконечномерные топологические векторные пространства и их отображения. Наиболее важными примерами таких пространств являются пространства функций.

<span class="mw-page-title-main">Вычислительная математика</span> раздел математики, включающий круг вопросов, связанных с производством разнообразных вычислений

Вычислительная математика — раздел математики, включающий круг вопросов, связанных с производством разнообразных вычислений. В более узком понимании вычислительная математика — теория численных методов решения типовых математических задач. Современная вычислительная математика включает в круг своих проблем изучение особенностей вычисления с применением компьютеров.

Прогно́з — это научно обоснованное суждение о возможных состояниях объекта в будущем и (или) об альтернативных путях и сроках их осуществления. В узком смысле, это вероятностное суждение о будущем состоянии объекта исследования.

Эконометрика — наука, изучающая количественные и качественные экономические взаимосвязи с помощью статистических и других математических методов и моделей. Современное определение предмета эконометрики было выработано в уставе Эконометрического общества, которое главными целями назвало использование статистики и математики для развития экономической теории. Теоретическая эконометрика рассматривает статистические свойства оценок и испытаний, в то время как прикладная эконометрика занимается применением эконометрических методов для оценки экономических теорий. Эконометрика даёт инструментарий для экономических измерений, а также методологию оценки параметров моделей микро- и макроэкономики. Кроме того, эконометрика активно используется для прогнозирования экономических процессов как в масштабах экономики в целом, так и на уровне отдельных предприятий. При этом эконометрика является частью экономической теории, наряду с макро- и микроэкономикой.

Машинное обучение — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт применения решений множества сходных задач. Для построения таких методов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме.

<span class="mw-page-title-main">Кластерный анализ</span> задача, состоящая в том, чтобы сгруппировать набор объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были бо

Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

Задача классифика́ции — задача, в которой множество объектов (ситуаций) необходимо разделить некоторым образом на классы, при этом задано конечное множество объектов, для которых известно, к каким классам они относятся (выборка), но классовая принадлежность остальных объектов неизвестна. Для решения задачи требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества, то есть указать, к какому классу он относится.

<span class="mw-page-title-main">Перцептрон</span> модель восприятия информации мозгом, предложенная Фрэнком Розенблаттом и реализованная в виде электронной машины «Марк-1»

Перцептро́н — математическая или компьютерная модель восприятия информации мозгом, предложенная Фрэнком Розенблаттом в 1957 году и впервые воплощённая в виде электронной машины «Марк-1» в 1960 году. Перцептрон стал одной из первых моделей нейросетей, а «Марк-1» — первым в мире нейрокомпьютером.

Data mining — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных $\text{[math]}$ на зависимую переменную $\text{[math]}$ . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая, сумма квадратов между которой и данными минимальна.

S — язык программирования, разработанный фирмой AT&T Bell Labs, предназначен для обработки данных. Разработано несколько версий расширения языка S — S-Plus, для различных платформ.

Фа́кторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Эдвард Альтман — американский экономист, профессор финансов Нью-Йоркского университета, автор модели Альтмана, измеряющей степень риска банкротства каждой отдельной компании.

Расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния.

Линейный классификатор — способ решения задач классификации, когда решение принимается на основании линейного оператора над входными данными. Класс задач, которые можно решать с помощью линейных классификаторов, обладают, соответственно, свойством линейной сепарабельности.

Разведочный анализ данных — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

Снижение размерности в задачах статистики, машинного обучения и теории информации — набор техник преобразования данных, направленных на уменьшение числа переменных путём выявления главных переменных; в общем случае может быть разделено на отбор признаков и выделение признаков. Снижение размерности наборов данных позволяет снизить требуемое время и требуемую память для обработки набора, улучшить скорость моделей машинного обучения за счёт удаления мультиколлинеарности, проще представить данные визуально.

Линейный дискриминантный анализ, нормальный дискриминантный анализ или анализ дискриминантных функций является обобщением линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которая описывает или разделяет два или более классов или событий. Получившаяся комбинация может быть использована как линейный классификатор, или, более часто, для снижения размерности перед классификацией.

Канонический корреляционный анализ — это способ получения информации из матриц взаимной корреляции. Если у нас есть два вектора $\text{[math]}$ и $\text{[math]}$ случайных величин, и имеются корреляции среди этих переменных, тогда канонический корреляционный анализ найдёт линейную комбинацию X и Y, которая имеет максимум корреляции. Т. Р. Кнапп заметил, что «практически все общеупотребительные параметрические тесты значимости могут трактоваться как специальный случай канонического корреляционного анализа, который является общей процедурой для исследования связей между двумя наборами переменных». Первым метод представил Гарольд Хотеллинг в 1936.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.