Преобразование данных (статистика)
Преобразование данных — это применение детерминированной математической функции к каждой точке множества данных, то есть каждая точка данных zi заменяется преобразованным значением , где f — функция. Преобразования обычно применяются так, что данные больше подходят для процедуры статистического вывода, которую хотят применять, для улучшения интерпретируемости или для графического[англ.] представления.
Почти всегда функция, которая применяется для преобразования данных, обратима, и обычно является непрерывной. Преобразование обычно применяется к коллекции сравнимых показателей. Например, если мы работаем с данными по доходам людей в некоторой валюте, обычно преобразуется доход каждого человека с помощью логарифмической функции.
Мотивировка
Руководство, как данные следует преобразовать или следует ли их вообще преобразовывать, должно проистекать из конкретного статистического анализа. Например, простой путь для построения примерно 95 % доверительного интервала для математического ожидания популяции — взять среднее арифметическое плюс-минус две стандартные ошибки. Однако постоянный множитель 2, используемый здесь, относится к нормальному распределению и применим, только если среднее арифметическое варьируется примерно по нормальному закону. Центральная предельная теорема утверждает, что во многих ситуациях среднее арифметическое варьируется по нормальному закону, если размер выборки достаточно велик. Однако, если совокупность существенно асимметрична, а размер выборки умеренный, аппроксимация, даваемая центральной предельной теоремой, может быть плохой, а получающийся доверительный интервал, скорее всего, будет иметь неверный уровень доверия[англ.]. Тогда, в случае, когда имеется доказательство о существенной асимметрии данных, обычно данные преобразуются к симметричному распределению перед построением доверительного интервала. Если есть необходимость, доверительный интервал может быть преобразован обратно к исходному масштабу, используя обратное к используемому для преобразования данных.
Данные могут быть также преобразованы для облегчения визуализации. Например, предположим, что мы имеем диаграмму рассеяния, в которой точками являются страны мира, а значения данных, отражённые на графике, отражают площадь и популяцию каждой страны. Если график сделан из непреобразованных данных (например, квадратных километров для площади и число людей в популяции), большинство стран окажутся в плотном кластере в нижнем левом углу графика. Некоторые страны с очень большой площадью и/или популяцией будут распределены жидко по основной площади графика. Простое масштабирование единиц (например, к тысячам квадратных километров или к миллионам людей) не меняет ситуацию. Однако при логарифмическом преобразовании как площади, так и популяции, точки будут распределены на графе более равномерно.
Последней причиной преобразования данных может быть улучшение интерпретируемости, даже если не предполагается никакого формального статистического анализа или визуализации. Например, предположим, что мы сравниваем автомобили в терминах их экономии топлива. Эти данные обычно представляются как «километров на литр» или «миль на галлон». Однако, если целью является определение, сколько дополнительного топлива на человека нужно использовать в год, если использовать один автомобиль по сравнению с другим, более естественно работать с данными, преобразованными с помощью функции 1/x, которая даёт литры на километр или галлоны на милю.
В регрессии
Линейная регрессия — это статистическая техника для связи зависимой переменной Y с более-менее независимыми переменными X. Простейшие модели регрессии выявляют линейную связь между математическим ожиданием Y и каждой независимой переменной (если другие независимые переменные фиксированы). Если линейность не выполняется, даже приближённо, иногда можно преобразовать либо независимые переменные, либо зависимые переменные в регрессионной модели для улучшения линейности.
Другое предположение линейной регрессии — что дисперсия одна и та же для любого возможного математического ожидания (что известно как гомоскедастичность). Одномерная нормальность не нужна, чтобы оценка методом наименьших квадратов параметров регрессии имела смысл (см. статью «Теорема Гаусса — Маркова»). Однако доверительные интервалы и проверка гипотез будут иметь лучшие статистические свойства, если переменные обладают многомерной нормальностью. Это можно получить эмпирически путём графического представления значений по отношению к невязкам[англ.] и рассмотрения графика нормальных квантилей[англ.] невязок. Заметим, неважно, зависимая переменная Y нормально распределена или нет.
Альтернатива
Обобщённые линейные модели (ОЛМ) даёт гибкое обобщение обычной линейной регрессии, что делает возможным выходные переменные, имеющие модели распределения ошибок, отличные от нормального распределения. ОЛМ позволяет линейной модели быть связанными с выходными переменными с помощью функции связи и позволяет величине дисперсии каждого измерения быть функцией расчётной величины.
Примеры
Уравнение:
- Значение: Единичное увеличение X связано в среднем с увеличением в b раз значения Y.
Равенство: (Получается взятием логарифма от обеих частей равенства )
- Значение: Единичное увеличение X связано в среднем с увеличением на b% значения Y.
Равенство:
- Значение: Увеличение на 1% X связано в среднем с увеличением в b/100 раз значения Y.
Равенство: (Получается взятием логарифма от обеих частей равенства )
- Значение: Увеличение на 1% X связано в среднем с увеличением на b% значения Y.
Общие случаи
Логарифмические преобразования и преобразования к квадратному корню обычно используются для положительных данных, а преобразование к противоположному по умножению (1/x) может быть использовано для ненулевых данных. Степенное преобразование[англ.] является семейством преобразований, параметризованным неотрицательным значением λ, в это семейство входят логарифмическое преобразование, преобразование к квадратному корню и преобразование к обратному значению (1/x) в качестве специальных случаев. Чтобы получить преобразование данных целенаправленно, можно использовать технику статистической оценки для оценки параметра λ в степенном преобразовании, тем самым определяя преобразование, которое наиболее пригодно при заданных условиях. Поскольку семейство степенных преобразований включает также тождественное преобразование, этот подход может также показывать, не лучше ли анализировать данные без преобразования. В регрессионном анализе эта техника известна как техника Бокса-Кокса.
Преобразование к противоположному значению (1/x) и некоторые степенные преобразования могут быть с успехом применено к данным, которые содержат как положительные, так и отрицательные значения (степенное преобразование обратимо для всех вещественных чисел, если λ является нечётным целым числом). Однако, если наблюдаются как положительные, так и отрицательные значения, обычно начинают с добавления ко всем значениям константы для получения набора неотрицательных чисел, к которым можно затем применять любое степенное преобразование. Обычная ситуация, когда преобразование данных применяется, — это когда разброс рассматриваемых значений составляет несколько порядков. Многие физические и социальные явления проявляют такое поведение — доходы, размер популяции, размеры галактик и количество осадков как примеры. Степенное преобразование и, в частности, логарифм, может быть часто использовано для достижения симметрии в таких данных. Логарифм часто предпочтительнее, поскольку легче интерпретировать его результаты в терминах «кратности изменений».
Логарифм имеет также полезное свойство на дробях. Если мы сравниваем положительные значения X и Y используя отношения X / Y, то в случае X < Y отношение попадает на единичный отрезок (0,1), а когда X > Y, отношение попадает на полуось (1,∞), а равенство отношения 1 соответствует равенству величин. В анализе, когда X и Y трактуются симметрично, логарифм отношения log(X / Y) равен нулю в случае равенства и присутствует свойство, что в случае, когда X в K раз больше Y, логарифм отношения одинаково отстоит от нуля от случая, когда Y в K раз больше X (логарифм отношения в этих ситуациях равен log(K) и −log(K)).
Если значения изначально лежат между 0 и 1, не включая граничные значения, то может оказаться подходящим преобразование logit — оно даёт значения в диапазоне (−∞,∞).
Преобразование к нормальному распределению
Не всегда необходимо или желательно преобразовывать набор данных к нормальному распределению. Однако, если симметрия или нормальность желательна, часто это может быть сделано с помощью одного из степенных преобразований.
Для оценки, достигли ли мы нормальности, часто графический подход более информативен, чем формальный статистический тест. Обычно используется для оценки, получили ли мы нормально распределённую совокупность, график нормальных квантилей[англ.]. Альтернативно, используются универсальные правила, основанные на примере асимметрии и эксцесса, когда асимметрия достигает значения от −0.8 до 0.8, а эксцесс лежит в пределах от −3.0 до 3.0.
Преобразование к равномерному или произвольному распределению
Если мы наблюдаем набор из n значений без совпадений (т.е. все n значений различны), мы можем заменить Xi на преобразованное значение , где k определяется так, что Xi является k-ым наибольшим значением среди всех X значений. Это называется преобразованием ранжирования и оно создаёт данные, идеально совместимое с равномерным распределением.
При использовании вероятностного интегрального преобразования[англ.], если X является любой случайной величиной, а F является кумулятивной функцией распределения величины X, то, в случае обратимости F, случайная величина U = F(X) будет удовлетворять однородному распределению на единичном отрезке [0,1].
Однородное распределение мы можем преобразовать к любому распределению с помощью обратимой кумулятивной функцией распределения. Если G является обратимой кумулятивной функцией распределения, а U является равномерно распределённой случайной величиной, то случайная величина имеет G в качестве кумулятивной функции распределения.
То есть, если X является любой случайной величиной, F является обратимой кумулятивной функцией распределения величины X, а G является обратимой кумулятивной функцией распределения, то случайная величина имеет G в качестве кумулятивной функции распределения.
Преобразования, стабилизирующие дисперсию
Многие типы статистических данных обнаруживают связь «дисперсии и среднего», что означает — изменчивость различна для значений данных с различными математическими ожиданиями. В качестве примера, при сравнении различных популяций в мире увеличение дисперсии доходов приводит к увеличению математического ожидания доходов. Если мы рассматриваем число маленьких единиц площади (например, административные округа в Соединённых Штатах Америки) и получим среднее и дисперсию доходов для каждого округа, обычно получим, что округа с большим средним доходом имеют большую дисперсию.
Преобразование, стабилизирующее дисперсию[англ.] нацелено на удаление связи дисперсии и математического ожидания, так что дисперсия становится постоянной относительно среднего. Примерами преобразований, стабилизирующих дисперсию, являются преобразование Фишера[англ.] для выборочного коэффициента корреляции, преобразование к квадратному корню или преобразование Энскома[англ.] для данных, подчиняющихся распределению Пуассона, (дискретные данные), преобразование Бокса-Кокса[англ.] для регрессионного анализа и преобразование к арксинусу от квадратного корня или тригонометрическое преобразование для пропорций (биномиальных данных). Обычно используемый для статистического анализа пропорциональных данных преобразование к арксинусу квадратного корня не рекомендуется, поскольку логистическая регрессия или преобразование logit более пригодны для биномиальных или небиноминальных пропорций соответственно, особенно ввиду уменьшения ошибок типа II[1].
Преобразования для многомерных статистик
Одномерные функции могут быть применены поточечно к многомерным данным для изменения их частных распределений. Возможно также изменение некоторых свойств многомерных распределений с помощью подходящим образом построенных преобразований. Например, при работе с временными рядами и другими типами последовательных данных обычно переходят к конечным разностям данных для улучшения стационарности. Если данные, образованные случайным вектором X, наблюдаются как вектора Xi наблюдения с ковариационной матрицей Σ, может быть использовано линейное отображение для устранения корреляции данных. Чтобы сделать это, используется разложение Холецкого для получения Σ = A A'. Тогда преобразованный вектор имеет единичную матрицу в качестве ковариационной матрицы.
См. также
- Степенное преобразование[англ.] (Метод Бокса-Кокса)
- Logit
- Arcsin (преобразование, например, для коэффициента корреляции Пирсона)
Примечания
- ↑ Warton, Hui, 2011, с. 3–10.
Литература
- Warton D., Hui F. The arcsine is asinine: the analysis of proportions in ecology // Ecology. — 2011. — Т. 92. — doi:10.1890/10-0340.1. (недоступная ссылка)
Ссылки
- Log transformation Архивная копия от 7 октября 2018 на Wayback Machine
- Transformations, means, and confidence intervals Архивная копия от 3 августа 2009 на Wayback Machine
- Log Transformations for Skewed and Wide Distributions Архивная копия от 20 января 2019 на Wayback Machine – обсуждаются логарифмическое и «знаковое логарифмическое» преобразования (Глава из «Practical Data Science with R»).