Разведочный анализ данных

Разведочный анализ данных (англ. exploratory data analysis, EDA) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом:

максимальное «проникновение» в данные,
выявление основных структур,
выбор наиболее важных переменных,
обнаружение отклонений и аномалий,
проверка основных гипотез,
разработка начальных моделей.

Основные средства разведочного анализа — изучение вероятностных распределений переменных, построение и анализ корреляционных матриц, факторный анализ, дискриминантный анализ, многомерное шкалирование.

Литература

П. Брюс, Э. Брюс. 1. Разведочный анализ данных // Практическая статистика для специалистов Data Science. — СПб.: БХВ-Петербург, 2018. — С. 19—58. — 304 с.

Похожие исследовательские статьи

Математи́ческая стати́стика — наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.

Геофи́зика, или физика Земли, — комплекс научных дисциплин, исследующих физическими методами строение Земли, процессы, происходящие в геосфере, а также специфические методы исследования упомянутых объектов и процессов.

Прогно́з — это научно обоснованное суждение о возможных состояниях объекта в будущем и (или) об альтернативных путях и сроках их осуществления. В узком смысле, это вероятностное суждение о будущем состоянии объекта исследования.

Эконометрика — наука, изучающая количественные и качественные экономические взаимосвязи с помощью статистических и других математических методов и моделей. Современное определение предмета эконометрики было выработано в уставе Эконометрического общества, которое главными целями назвало использование статистики и математики для развития экономической теории. Теоретическая эконометрика рассматривает статистические свойства оценок и испытаний, в то время как прикладная эконометрика занимается применением эконометрических методов для оценки экономических теорий. Эконометрика даёт инструментарий для экономических измерений, а также методологию оценки параметров моделей микро- и макроэкономики. Кроме того, эконометрика активно используется для прогнозирования экономических процессов как в масштабах экономики в целом, так и на уровне отдельных предприятий. При этом эконометрика является частью экономической теории, наряду с макро- и микроэкономикой.

IDEF — методологии семейства ICAM для решения задач моделирования сложных систем, позволяют отображать и анализировать модели деятельности широкого спектра сложных систем в различных разрезах. При этом широта и глубина обследования процессов в системе определяется самим разработчиком, что позволяет не перегружать создаваемую модель излишними данными.

Дерево принятия решений — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

Data mining — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

<span class="mw-page-title-main">Скрытая марковская модель</span>

Скрытая марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

S — язык программирования, разработанный фирмой AT&T Bell Labs, предназначен для обработки данных. Разработано несколько версий расширения языка S — S-Plus, для различных платформ.

Фа́кторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Фармакокине́тика — раздел фармакологии, изучающий кинетические закономерности химических и биологических процессов, происходящих с лекарственным средством в организме животного или человека.

Гибридный компьютер, гибридная вычислительная машина, аналого-цифровая система — вид гибридной вычислительной системы (ГВС), сочетающий в себе свойства аналоговых и цифровых вычислительных устройств.

Экзогенность — буквально «внешнее происхождение» — свойство факторов эконометрических моделей, заключающееся в предопределённости, заданности их значений, независимости от функционирования моделируемой системы. Экзогенность противоположна эндогенности. Значения экзогенных переменных определяются вне модели, и на их основе в рамках рассматриваемой модели определяются значения эндогенных переменных.

Про́бит-регрессия — применяемая в различных областях статистическая (нелинейная) модель и метод анализа зависимости качественных переменных от множества факторов, основанная на нормальном распределении. В экономике (эконометрике) пробит-модели используются в моделях бинарного выбора или в моделях множественного выбора между различными альтернативами, для моделирования дефолтов компаний, в страховании жизни - для оценки вероятности смерти в зависимости от возраста и пола и т. д. В токсикологии пробит-регрессия используется для оценки влияния дозы или концентрации тех или иных веществ на биологические объекты.

Нелинейная регрессия — это вид регрессионного анализа, в котором экспериментальные данные моделируются функцией, являющейся нелинейной комбинацией параметров модели и зависящей от одной и более независимых переменных. Данные аппроксимируются методом последовательных приближений.

EDA:

Автоматизация проектирования электроники — комплекс программных средств для облегчения разработки электронных устройств, создания микросхем и печатных плат.
Разведочный анализ данных — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей.
Событийно-ориентированная архитектура — шаблон архитектуры программного обеспечения, позволяющий создание, определение, потребление и реакцию на события.

Непараметрическая статистика — раздел статистики, который не основан исключительно на параметризованных семействах вероятностных распределений. Непараметрическая статистика включает в себя описательную статистику и статистический вывод.

Снижение размерности в задачах статистики, машинного обучения и теории информации — набор техник преобразования данных, направленных на уменьшение числа переменных путём выявления главных переменных; в общем случае может быть разделено на отбор признаков и выделение признаков. Снижение размерности наборов данных позволяет снизить требуемое время и требуемую память для обработки набора, улучшить скорость моделей машинного обучения за счёт удаления мультиколлинеарности, проще представить данные визуально.

Выделение признаков — это разновидность абстрагирования, процесс снижения размерности, в котором исходный набор исходных переменных сокращается до более управляемых групп (признаков) для дальнейшей обработки, оставаясь при этом достаточным набором для точного и полного описания исходного набора данных. Выделение признаков используется в машинном обучении, распознавании образов и при обработке изображений. Выделение признаков начинает с исходного набора данных, выводит вторичные значения (признаки), для которых предполагается, что они должны быть информативными и не быть избыточными, что способствует последующему процессу машинного обучения и обобщению шагов, а в некоторых случаях ведёт и к лучшей человеческой интерпретацией данных.

Выявление аномалий — опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных. Обычно аномальные данные характеризуют некоторый вид проблемы, такой как мошенничество в банке, структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы, необычности, шум, отклонения или исключения.

Эта страница основана на статье Википедии.
Текст доступен на условиях лицензии CC BY-SA 4.0; могут применяться дополнительные условия.
Изображения, видео и звуки доступны по их собственным лицензиям.