Метод ближайших соседей

Метод ближайших соседей — один из методов из широкого класса подходов к анализу и обработке данных. Некоторые из них:

Метод ближайших соседей (англ. Neighbor joining — метод присоединения соседей) — бионформатический восходящий кластерный метод для создания филогенетических деревьев.
Метод $k$ ближайших соседей (англ. k-nearest neighbors algorithm) — метрический алгоритм для автоматической классификации объектов или регрессии.

Примечания

Похожие исследовательские статьи

Хеш-функция, или функция свёртки — функция, осуществляющая преобразование массива входных данных произвольной длины в выходную битовую строку установленной длины, выполняемое определённым алгоритмом. Преобразование, производимое хеш-функцией, называется хешированием. Исходные данные называются входным массивом, «ключом» или «сообщением». Результат преобразования называется «хешем», «хеш-кодом», «хеш-суммой», «сводкой сообщения».

<span class="mw-page-title-main">Spinhenge@home</span>

Spinhenge@home — проект добровольных вычислений на платформе BOINC. Целью проекта является целенаправленный синтез специально спроектированных магнитных молекул на основании квантово-механического моделирования с использованием метода Монте-Карло, результаты которого можно непосредственно сравнивать с экспериментом. Кроме того, в ходе исследований планируется расширить понимание молекулярного магнетизма, а также найти возможность его использования в прикладных областях. Проект поддерживается Университетом прикладных наук в Билефельде, департаментом электротехники и информатики, в сотрудничестве с Министерством энергетики США и Лабораторией Эймса Университета Айовы.

Обуче́ние с учи́телем — один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она неизвестна. Известна только конечная совокупность прецедентов — пар «стимул-реакция», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов, так же как и в обучении на примерах, может вводиться функционал качества.

Под «ближайшим соседом» могут пониматься:

Задача поиска ближайшего соседа в распознавании образов
Интерполяция методом ближайшего соседа
Метод k ближайших соседей в машинном обучении
Алгоритм ближайшего соседа для приближённого решения задачи коммивояжёра

Задача поиска ближайшего соседа заключается в отыскании среди множества элементов, расположенных в метрическом пространстве, элементов близких к заданному, согласно некоторой заданной функции близости, определяющей это метрическое пространство.

Гибридизация ДНК, гибридизация нуклеиновых кислот — соединение in vitro комплементарных одноцепочечных нуклеиновых кислот в одну молекулу. При полной комплементарности объединение происходит легко и быстро, а в случае частичной некомплементарности слияние цепочек замедляется, что позволяет оценить степень комплементарности. Возможна гибридизация ДНК-ДНК и ДНК-РНК.

Интерполяция методом ближайшего соседа — метод интерполяции, при котором в качестве промежуточного значения выбирается ближайшее известное значение функции. Интерполяция методом ближайшего соседа является самым простым методом интерполяции.

Метод <span class="ts-math" style="font-style:italic;">k</span> ближайших соседей

Метод $\text{[math]}$ ближайших соседей — метрический алгоритм для автоматической классификации объектов или регрессии.

Экзоплане́та, или внесолнечная планета, — планета, находящаяся за пределами Солнечной системы.

Иерархическая кластеризация — совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева) вложенных кластеров. Выделяют два класса методов иерархической кластеризации:

Агломеративные методы : новые кластеры создаются путем объединения более мелких кластеров и, таким образом, дерево создается от листьев к стволу;
Дивизивные или дивизионные методы : новые кластеры создаются путем деления более крупных кластеров на более мелкие и, таким образом, дерево создается от ствола к листьям.

Метод присоединения соседей — алгоритм биоинформатики и лингвистики, разработанный Наруя Сайтоу и Масатоси Нэи в 1987 году. Это восходящий кластерный метод для создания филогенетических деревьев. Обычно используется для деревьев, основанных на ДНК или белковых последовательностях, в лингвистике — на данных лексикостатистики, реже фоно- или морфостатистики. Для его реализации необходимо вычислить расстояния между каждой парой таксонов.

Радиальная базисная функция (РБФ) — функция из набора однотипных радиальных функций, используемых как функция активации в одном слое искусственной нейронной сети или как-либо ещё, в зависимости от контекста. Радиальная функция — это любая вещественная функция, значение которой зависит только от расстояния до начала координат $\text{[math]}$ или от расстояния между некоторой другой точкой $\text{[math]}$ , называемой центром: $\text{[math]}$ . В качестве нормы обычно выступает евклидово расстояние, хотя можно использовать и другие метрики.

Снижение размерности в задачах статистики, машинного обучения и теории информации — набор техник преобразования данных, направленных на уменьшение числа переменных путём выявления главных переменных; в общем случае может быть разделено на отбор признаков и выделение признаков. Снижение размерности наборов данных позволяет снизить требуемое время и требуемую память для обработки набора, улучшить скорость моделей машинного обучения за счёт удаления мультиколлинеарности, проще представить данные визуально.

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных, и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки, которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.

Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение).

Масштабно-инвариантная трансформация признаков является алгоритмом выявления признаков в компьютерном зрении для выявления и описания локальных признаков в изображениях. Алгоритм был запатентован в Канаде университетом Британской Колумбии и опубликован Дэвидом Лоу в 1999. Приложения включают распознавание объектов, роботизированное составление карты и роботизированную навигацию, сшивку изображений, трёхмерное моделирование, распознавание жестов, трекинг, идентификацию диких животных и позиционный трекинг.

Бэггинг — ансамблевый метаалгоритм, предназначенный для улучшения стабильности и точности алгоритмов машинного обучения, используемых в задачах классификации и регрессии. Алгоритм также уменьшает дисперсию и помогает избежать переобучения. Хотя он обычно применяется к методам машинного обучения на основе деревьев решений, его можно использовать с любым видом метода. Бэггинг является частным видом усреднения модели.

Основанная на плотности пространственная кластеризация для приложений с шумами — это алгоритм кластеризации данных, который предложили Маритин Эстер, Ганс-Петер Кригель, Ёрг Сандер и Сяовэй Су в 1996. Это алгоритм кластеризации, основанной на плотности — если дан набор точек в некотором пространстве, алгоритм группирует вместе точки, которые тесно расположены, помечая как выбросы точки, которые находятся одиноко в областях с малой плотностью . DBSCAN является одним из наиболее часто используемых алгоритмов кластеризации, и наиболее часто упоминается в научной литературе.

Локальный уровень выброса — алгоритм^{[уточнить]} нахождения аномальных точек данных путём измерения локального отклонения данной точки с учётом её соседей.

CURE является эффективным алгоритмом кластерного анализа для больших баз данных. По сравнению с методом k-средних алгоритм более устойчив к выбросам и способен выявить кластеры, не имеющие сферической формы и с большим разбросом размеров.

Упорядочение точек для обнаружения кластерной структуры — это алгоритм нахождения кластеров в пространственных данных на основе плотности. Алгоритм презентовали Михаэл Анкерст, Маркус М. Бройниг, Ганс-Петер Кригель и Ёрг Сандер. Основная идея алгоритма похожа на DBSCAN, но алгоритм предназначен для избавления от одной из главных слабостей алгоритма DBSCAN — проблемы обнаружения содержательных кластеров в данных, имеющих различные плотности. Чтобы это сделать, точки базы данных (линейно) упорядочиваются так, что пространственно близкие точки становятся соседними в упорядочении. Кроме того, для каждой точки запоминается специальное расстояние, представляющее плотность, которую следует принять для кластера, чтобы точки принадлежали одному кластеру. Это представлено в виде дендрограммы.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.