Бутстрэп (статистика)
Бутстрэп[1] (англ. bootstrap) в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки[2]. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.
Понятие введено в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году[3]). Суть метода состоит в том, чтобы по имеющейся выборке построить эмпирическое распределение. Используя это распределение как теоретическое распределение вероятностей, можно с помощью датчика псевдослучайных чисел сгенерировать практически неограниченное количество псевдовыборок произвольного размера, например, того же, как у исходной. На множестве псевдовыборок можно оценить не только анализируемые статистические характеристики, но и изучить их вероятностные распределения. Таким образом, например, оказывается возможным оценить дисперсию или квантили любой статистики независимо от её сложности. Данный метод является методом непараметрической статистики.
Наряду с методами «складного ножа», перекрёстной проверки и перестановочным тестированием (англ. exact test) составляет класс методов генерации повторной выборки (англ. resampling).
Этимология
Слово происходит от выражения: «To pull oneself over a fence by one’s bootstraps.» (дословно — «перебраться через ограду, потянув за ремешки на ботинках» (см. фото справа). Для русскоязычных людей ближе будет история барона Мюнхгаузена, который, потянув себя за волосы, вытащил себя и свою лошадь из болота.
Сам англицизм «бутстрап» используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее. В области статистики ближайший по этимологии аналог термина — «самовытягивание».
Вводный пример
Пусть имеется два наблюдения:
Предположим, что нам необходимо оценить параметр в регрессии y на x:
Оценка параметра, полученная методом наименьших квадратов, будет равна
Эмпирическая функция распределения при этом равна
При этом данные из двух наблюдений относительно эмпирического распределения будут распределены так:
Это и есть бутстрэповское распределение. Далее можем найти распределение МНК-оценки:
Применение
Бутстрэп используется для корректировки смещения, тестирования гипотез, построения доверительных интервалов.
Бутстрэповский доверительный интервал: алгоритм
Пусть дана выборка из генеральной совокупности, и требуется оценить параметр . Необходимо выбрать количество псевдовыборок, которые будут формироваться из элементов исходной выборки с возвращением. Для каждой из псевдовыборок вычисляется псевдостатистика .
Псевдостатистики сортируются от меньшей к большей. Квантилями принимаются значения . С их помощью строится доверительный интервал.
Примечания
- ↑ Также бутстрап, бутстреп, бутстрэппинг, бутстрапирование.
- ↑ アーカイブされたコピー . Дата обращения: 23 марта 2007. Архивировано 12 июля 2012 года.
- ↑ Эфрон, 1979.
Литература
- Станислав Анатольев. Эконометрика для продолжающих. Курс лекций. — 2002.
- Bradley Efron. Bootstrap Methods: Another Look at the Jackknife (англ.) // Annals of Statistics. — 1979. — Vol. 7, no. 1. — P. 1—26. — ISSN 0090-5364. — doi:10.1214/aos/1176344552.
Ссылки
- Bootstrap tutorial from ICASSP 99 (недоступная ссылка с 13-05-2013 [4161 день] — история): Tutorial from a signal processing perspective
- Bootstrap sampling tutorial using MS Excel
- Animations for bootstrapping i.i.d data (недоступная ссылка с 13-05-2013 [4161 день] — история) by Yihui Xie using the R
- Bootstrapping tutorial