Информационный критерий Акаике

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года^[1].

Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимального правдоподобия. То есть стояла задача оценки переобучения модели. Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера), смог для ряда частных случаев получить искомую оценку.

Определение

В общем случае AIC:

{\mathit {AIC}}=2k-2\ln(L)

,

где $k$ — число параметров в статистической модели, $L$ — максимизированное значение функции правдоподобия модели.

Далее будем полагать, что ошибки модели нормально и независимо распределены. Пусть $n$ — число наблюдений, а остаточная сумма квадратов^[англ.]

{\mathit {RSS}}=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}.

Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех них. Следовательно:

{\mathit {AIC}}=2k+n[\ln(2\pi {\mathit {RSS}}/n)+1]\,.

В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от $n$ :

{\mathit {AIC}}=2k+n[\ln({\mathit {RSS}})]\,.

Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (SIC) штрафует свободные параметры в большей мере.

Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.

Применимость к настройке по χ² (максимуму правдоподобия)

Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию $\chi ^{2}$ .

Для таких случаев можно приспособить AIC. В рамках статьи назовем его $AIC_{\chi ^{2}}$ . От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.

Для приближения $\chi ^{2}$ функция правдоподобия определяется следующим образом:

L=\prod _{i=1}^{n}\left({\frac {1}{2\pi \sigma _{i}^{2}}}\right)^{1/2}\exp \left(-\sum _{i=1}^{n}{\frac {(y_{i}-f(\mathbf {x} ))^{2}}{2\sigma _{i}^{2}}}\right)

\therefore \ln L=\ln \left(\prod _{i=1}^{n}\left({\frac {1}{2\pi \sigma _{i}^{2}}}\right)^{1/2}\right)-{\frac {1}{2}}\sum _{i=1}^{n}{\frac {(y_{i}-f(\mathbf {x} ))^{2}}{\sigma _{i}^{2}}}

\therefore \ln L=C-\chi ^{2}/2

,

где $C$ — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.

Таким образом: $AIC=2k-2\ln(L)=2k-2(C-\chi ^{2}/2)=2k-2C+\chi ^{2}$ . Исключая константу:

AIC_{\chi ^{2}}=\chi ^{2}+2k.

Эта форма критерия часто удобна, если мы уже вычислили $\chi ^{2}$ как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением $AIC_{\chi ^{2}}$ .

Аналогично, если имеется вычисленная статистика $R^{2}$ («Объясненная дисперсия»), можно записать:

AIC_{R^{2}}=n\ln {\frac {1-R^{2}}{n}}+2k.\

См. также

Байесовский информационный критерий (BIC; он же Критерий Шварца, SIC)
Критерий Акаике на Machinelearning.ru

Ссылки

↑ Akaike, Hirotugu^[англ.]. A new look at the statistical model identification (неопр.) // IEEE Transactions on Automatic Control. — 1974. — Т. 19, № 6. — С. 716—723. — doi:10.1109/TAC.1974.1100705.