Разведочный анализ данных

Перейти к навигацииПерейти к поиску

Разведочный анализ данных (англ. exploratory data analysis, EDA) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом:

  • максимальное «проникновение» в данные,
  • выявление основных структур,
  • выбор наиболее важных переменных,
  • обнаружение отклонений и аномалий,
  • проверка основных гипотез,
  • разработка начальных моделей.

Основные средства разведочного анализа — изучение вероятностных распределений переменных, построение и анализ корреляционных матриц, факторный анализ, дискриминантный анализ, многомерное шкалирование.

Литература

  • П. Брюс, Э. Брюс. 1. Разведочный анализ данных // Практическая статистика для специалистов Data Science. — СПб.: БХВ-Петербург, 2018. — С. 19—58. — 304 с.