Метод k-медиан — Википедия

Метод $k$ -медиан^[1]^[2] — применяемая в статистике и машинном обучении вариация метода $k$ -средних для задач кластеризации, где для определения центроида кластера вместо среднего вычисляется медиана. Такой подход соответствует минимизации ошибки по всем кластерам в метрике с 1-нормой, вместо метрики с 2-нормой, используемой в стандартном методе $k$ -средних.

Задача определения $k$ -медиан состоит в поиске таких $k$ центров, что сформированные по ним кластеры будут наиболее «компактными». Формально, при заданных точках данных $x_{i}$ , $k$ центров $c_{j}$ должны быть выбраны так, чтобы минимизировать сумму расстояний от каждой $x_{i}$ до ближайшего $c_{j}$ .

Метод иногда работает лучше, чем метод $k$ -средних, где минимизируется сумма квадратов расстояний. Критерий суммы расстояний широко используется для транспортных задач^[3].

Ещё альтернатива — метод $k$ -медоидов, в котором ищут оптимальный медоид, а не медиану кластера (медоид является одной из точек данных, в то время как медианы таковыми быть не обязаны).

Ссылки

↑ A. K. Jain and R. C. Dubes, Algorithms for Clustering Data: Prentice-Hall, 1981.
↑ P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization, " in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368—374.
↑ Архивированная копия (неопр.). Дата обращения: 24 октября 2010. Архивировано 3 апреля 2022 года.

Среднее значение
Математика	Среднее степенное (взвешенное) Среднее гармоническое взвешенное Среднее геометрическое взвешенное Среднее арифметическое взвешенное Среднее квадратическое Среднее кубическое Скользящая средняя Среднее арифметико-геометрическое Среднее значение функции Среднее Колмогорова
Геометрия	Геометрический центр Барицентр
Теория вероятностей и математическая статистика	Винзоризованное среднее Выборочное среднее Математическое ожидание Медиана Мода Среднеквадратическое отклонение Среднее усечённое Условное математическое ожидание
Информационные технологии	Медоид Метод k-медиан
Теоремы	Первая теорема о среднем Вторая теорема о среднем Неравенство о среднем арифметическом, геометрическом и гармоническом
Другое	Показатели центра распределения Меры центральной тенденции

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Похожие исследовательские статьи

Задача коммивояжёра — одна из самых известных задач комбинаторной оптимизации, заключающаяся в поиске самого выгодного маршрута, проходящего через указанные города хотя бы по одному разу с последующим возвратом в исходный город. В условиях задачи указываются критерий выгодности маршрута и соответствующие матрицы расстояний, стоимости и тому подобного. Как правило, указывается, что маршрут должен проходить через каждый город только один раз — в таком случае выбор осуществляется среди гамильтоновых циклов. Существует несколько частных случаев общей постановки задачи, в частности, геометрическая задача коммивояжёра, метрическая задача коммивояжёра, симметричная и асимметричная задачи коммивояжёра. Также существует обобщение задачи, так называемая обобщённая задача коммивояжёра.

Норма — функционал, заданный на векторном пространстве и обобщающий понятие длины вектора или абсолютного значения числа.

<span class="mw-page-title-main">Кластерный анализ</span> задача, состоящая в том, чтобы сгруппировать набор объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были бо

Кластерный анализ — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

Фи́нслерова геометрия — одно из обобщений римановой геометрии. В финслеровой геометрии рассматриваются многообразия с финслеровой метрикой; то есть выбором нормы на каждом касательном пространстве, которая гладко меняется от точки к точке.

Метод главных компонент — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретён Карлом Пирсоном в 1901 году. Применяется во многих областях, в том числе в эконометрике, биоинформатике, обработке изображений, для сжатия данных, в общественных науках.

Метод k-средних — наиболее популярный метод кластеризации. Был изобретён в 1950-х годах математиком Гуго Штейнгаузом и почти одновременно Стюартом Ллойдом. Особую популярность приобрёл после работы Маккуина.

В компьютерном зрении, сегментация — это процесс разделения цифрового изображения на несколько сегментов. Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать. Сегментация изображений обычно используется для того, чтобы выделить объекты и границы на изображениях. Более точно, сегментация изображений — это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.

Метод нечёткой кластеризации C-средних позволяет разбить имеющееся множество элементов мощностью $\text{[math]}$ на заданное число нечётких множеств $\text{[math]}$ . Метод нечеткой кластеризации C-средних можно рассматривать как усовершенствованный метод k-средних, при котором для каждого элемента из рассматриваемого множества рассчитывается степень его принадлежности каждому из кластеров.

Иерархическая кластеризация — совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева) вложенных кластеров. Выделяют два класса методов иерархической кластеризации:

Агломеративные методы : новые кластеры создаются путем объединения более мелких кластеров и, таким образом, дерево создается от листьев к стволу;
Дивизивные или дивизионные методы : новые кластеры создаются путем деления более крупных кластеров на более мелкие и, таким образом, дерево создается от ствола к листьям.

Четвёртая проблема Гильберта в списке проблем Гильберта касается базовой системы аксиом геометрии. Проблема состоит в том, чтобы

«Определить все с точностью до изоморфизма реализации систем аксиом классических геометрий, если в них опустить аксиомы конгруэнтности, содержащие понятия угла, и пополнить эти системы аксиомой неравенства треугольника».

Анализ взвешенных сетей коэкспрессии генов, также известный как анализ взвешенной сети корреляций — метод глубинного анализа данных, основанный на попарных корреляциях между переменными. Метод может быть использован для анализа широкого спектра многомерных наборов данных, но наиболее широкое распространение он получил в геномике. Метод позволяет определять модули, межмодульные хабы и узлы сети относительно принадлежности к модулю, изучать отношения между модулями коэкспрессии и сравнивать топологии различных сетей. WGCNA может быть использован как метод снижения размерности данных, как метод кластеризации, как метод отбора признаков.

Обучение с частичным привлечением учителя (также полуавтоматическое обучение или частичное обучение — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Геометрический центр дискретного множества точек евклидова пространства — это точка, в которой минимизируется сумма расстояний до точек множества. Геометрический центр обобщает медиану в математической статистике, которая минимизирует расстояния в одномерной выборке данных. Таким образом, геометрический центр отражает центральную тенденцию в пространствах высокой размерности. Понятие известно также по названиям 1-медиана, пространственная медиана, или точка Торричелли.

<span class="mw-page-title-main">Спектральная кластеризация</span>

Техники спектральной кластеризации используют спектр матрицы сходства данных для осуществления снижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.

Отбор признаков — процесс отбора подмножества значимых признаков для построения модели в машинном обучении. Отбор признаков используется по четырём причинам:

упрощение модели для повышения интерпретируемости
для сокращения времени обучения
во избежание проклятия размерности
улучшение обобщающей способности модели и борьба с переобучением.

Сбалансированное итеративное сокращение и кластеризация с помощью иерархий — это алгоритм интеллектуального анализа данных без учителя, используемый для осуществления иерархической кластеризации на наборах данных большого размера. Преимуществом BIRCH является возможность метода динамически кластеризовать по мере поступления многомерных метрических точек данных в попытке получить кластеризацию лучшего качества для имеющегося набора ресурсов. В большинстве случаев алгоритм BIRCH требует одного прохода по базе данных.

Основанная на плотности пространственная кластеризация для приложений с шумами — это алгоритм кластеризации данных, который предложили Маритин Эстер, Ганс-Петер Кригель, Ёрг Сандер и Сяовэй Су в 1996. Это алгоритм кластеризации, основанной на плотности — если дан набор точек в некотором пространстве, алгоритм группирует вместе точки, которые тесно расположены, помечая как выбросы точки, которые находятся одиноко в областях с малой плотностью . DBSCAN является одним из наиболее часто используемых алгоритмов кластеризации, и наиболее часто упоминается в научной литературе.

CURE является эффективным алгоритмом кластерного анализа для больших баз данных. По сравнению с методом k-средних алгоритм более устойчив к выбросам и способен выявить кластеры, не имеющие сферической формы и с большим разбросом размеров.

Упорядочение точек для обнаружения кластерной структуры — это алгоритм нахождения кластеров в пространственных данных на основе плотности. Алгоритм презентовали Михаэл Анкерст, Маркус М. Бройниг, Ганс-Петер Кригель и Ёрг Сандер. Основная идея алгоритма похожа на DBSCAN, но алгоритм предназначен для избавления от одной из главных слабостей алгоритма DBSCAN — проблемы обнаружения содержательных кластеров в данных, имеющих различные плотности. Чтобы это сделать, точки базы данных (линейно) упорядочиваются так, что пространственно близкие точки становятся соседними в упорядочении. Кроме того, для каждой точки запоминается специальное расстояние, представляющее плотность, которую следует принять для кластера, чтобы точки принадлежали одному кластеру. Это представлено в виде дендрограммы.

Сдвиг среднего значения — это непараметрическая техника анализа пространства признаков для определения местоположения максимума плотности вероятности, так называемый алгоритм поиска моды. Область применения техники — кластерный анализ в компьютерном зрении и обработке изображений.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.