Распределение Дирихле
В теории вероятностей и математической статистике распределение Дирихле (по имени Иоганна Петера Густава Лежён-Дирихлe), часто обозначаемое , — это семейство непрерывных многомерных вероятностных распределений, параметризованных вектором α неотрицательных вещественных чисел. Распределение Дирихле является обобщением Бета-распределения на многомерный случай. То есть, его функция плотности вероятности возвращает доверительную вероятность того, что вероятность каждого из взаимоисключающих событий равна при условии, что каждое событие наблюдалось раз.
Функция плотности вероятности
Функция плотности вероятности для распределения Дирихле порядка K есть[1]
где , , , а — многомерная бета-функция, где
Свойства
Пусть и тогда[1]
Модой распределения является вектор с
Распределение Дирихле является сопряжённым априорным распределением к мультиномиальному распределению, а именно, если
где βi — число вхождений i в выборку из n точек дискретного распределения на {1, …, K} определённого через X, то
Эта связь используется в Байесовской статистике для того, чтобы оценить скрытые параметры X дискретного вероятностного распределения, имея набор из n выборок. Очевидно, что если априорное распределение обозначено как Dir(α), то Dir(α + β) есть апостериорное распределение после серии наблюдений с гистограммой β.
Связи с другими распределениями
Если для
- независимо, то
и
Несмотря на то, что Xi не являются независимыми друг от друга, они могут быть сгенерированы из набора из независимых гамма случайных величин. К несчастью, так как сумма теряется в процессе формирования X = (X1, …, XK), становится невозможно восстановить начальные значения гамма случайных величин только по этим значениям. Тем не менее, благодаря тому, что работать с независимыми случайными величинами проще, это преобразование параметров может быть полезно при доказательстве свойств распределения Дирихле.
Генерация случайных чисел
Метод построения случайного вектора для распределения Дирихле размерности K с параметрами следует непосредственно из этой связи. Сначала получим K независимых случайных выборок из гамма-распределений, каждое из которых имеет плотность
а затем положим
Наглядная трактовка параметров
В качестве примера использования распределения Дирихле можно предложить задачу, в которой требуется разрезать нитки (каждая начальной длины 1,0) на K частей с разными длинами так, чтобы все части имели заданную среднюю длину, но с возможностью некоторой вариации относительных длин частей. Значения α / α0 определяют средние длины частей нитки, получившиеся из распределения. Дисперсия вокруг среднего значения обратно пропорциональна α0.
См. также
Примечания
- ↑ 1 2 Гроот, 1974, с. 56—58.
Литература
- М. де Гроот[англ.]. Оптимальные статистические решения = Optimal Statistical Decisions. — М.: Мир, 1974. — 492 с.