Принцип максимума энтропии

Принцип максимума энтропии утверждает, что наиболее характерными распределениями вероятностей состояний неопределенной среды являются такие распределения, которые максимизируют выбранную меру неопределенности при заданной информации о «поведении» среды. Впервые подобный подход использовал Д. Гиббс для нахождения экстремальных функций распределений физических ансамблей частиц. Впоследствии Э. Джейнсом был предложен формализм восстановления неизвестных законов распределения случайных величин при наличии ограничений из условий максимума энтропии Шеннона.

История

Рассмотрим дискретную случайную величину $X$ , которая может принимать значения $x_{1},...,x_{n}$ с вероятностями $p_{1},...,p_{n}$ . Значения вероятностей неизвестны. Зато известно математическое ожидание некоторой функции данной случайной величины: $M[f(x)]=\sum \limits _{i=1}^{n}{f({x_{i}}){p_{i}}}$ . Основываясь на этой информации, каково математическое ожидание функции $g(x)$ ?

На первый взгляд, задача кажется неразрешимой, поскольку предварительно необходимо знать вероятностное распределение $X$ , а исходной информации недостаточно, чтобы найти все значения вероятностей $p_{i}$ . Уравнение матожидания функции $f(x)$ вместе с уравнением нормировки $\sum \limits _{i=1}^{n}{p_{i}}=1$ дают всего два уравнения из $n$ необходимых для составления системы уравнений.

Эта задача определения вероятностного распределения в случаях, когда мало или совсем нет информации о случайной величине, стара как сама теория вероятностей. Лапласовский принцип недостаточного основания был попыткой предложить такой критерий выбора: он заключается в том, что два события считаются равновероятными, если нет оснований считать иначе.

Связь статистики с аксиоматической теорией вероятности имеет 2 различных подхода^[1]. Частотный (frequentist) подход рассматривает вероятность как предел частоты, вероятность — это то что описывает свойства бесконечно больших ансамблей бинарных событий. Байесов подход обобщает фреквентистский подход тем, что постулирует новый смысл вероятности как количественной характеристики какого-либо бинарного эксперимента. Это даёт те же результаты при описании ансамблей, что и фреквентистский подход, но позволяет давать количественные оценки для бинарных экспериментов, исход которых заранее неизвестен, и улучшать оценки по мере поступления новой информации об исходах; всё это при фреквентистском понимании не имеет смысла.

Лаплас, например, считал, что в мире вообще нет ничего случайного, и если есть информация о причинах событий, то следствия (сами события) могут быть предсказаны со стопроцентной точностью (лапласовский детерминизм). Этот подход к вероятности развивали независимо физик Д.Гиббс (в статистической механике Гиббса) и математик К.Шеннон (при разработке теории информации). Оба они получили величину, выражающую собой меру неопределенности об исходах какого-либо события (или, по-другому, меру неопределенности вероятностного распределения), которая была названа энтропией и вычислялась по похожим формулам. Далее на это сходство обратил внимание физик Э. Т. Джейнс в двух статьях 1957 года^[1]^[2].

Строго говоря, Гиббс не был первопроходцем в разработке понятия физической энтропии. Само понятие энтропии предложил физик Р.Клаузиус, а затем его развивал физик Л.Больцман, причём каждый из них получил свою функцию энтропии. Клаузиус работал с термодинамическими понятиями, Больцман же разрабатывал молекулярную физику и статистическую механику.

Точно так же Шеннон основывался в своей работе на результатах Г.Найквиста и Р.Хартли, заложивших основы теории информации.

Функционал

Предположим, что событие $A$ может произойти, а может и не произойти в ходе случайного эксперимента. Если событие $A$ не произошло, будем считать, что произошло противоположное событие ${\overline {A}}$ . Таким образом, события $A$ и ${\overline {A}}$ образуют полную группу событий, что означает, что это несовместные события, а их вероятности в сумме равны единице: $P(A)+P({\overline {A}})=1$ .

Если о событии $A$ не известно вообще ничего, то, согласно субъективному подходу к вероятности, нужно принять, что события $A$ и ${\overline {A}}$ равновероятны: $P(A)=P({\overline {A}})=0,5$ .

По мере обретения некоторой информации, одна вероятность начнет перевешивать другую, а неопределенность начнет уменьшаться. В конце концов, при получении полной информации окажется, что $P(A)=1$ , $P({\overline {A}})=0$ (или наоборот: $P(A)=0$ , $P({\overline {A}})=1$ ). Неопределенность при этом упадет до нуля.

Хорошо бы придумать такую функцию этих вероятностей, которая бы достигала максимума при полной неопределенности и обращалась в ноль при полной определённости. И чем больше одна вероятность перевешивает другую, чем больше между ними «асимметрия», тем меньшее значение принимает данная функция.

Эту функцию (функционал) назовем энтропией распределения или неопределенностью распределения. Строго говоря, энтропия — лишь мера неопределенности, а не сама неопределенность. Но здесь все как в случае с вероятностями: вероятность — это одновременно и возможность события, и мера этой возможности. В принципе, правильно говорить и так, и эдак.

В качестве такой функции можно рассмотреть, например, произведение вероятностей событий $A$ и ${\overline {A}}$ . Обозначим $P(A)=p$ , $P({\overline {A}})=1-p$ и рассмотрим функцию $H(p)=p(1-p)$ . Поскольку $H(p)$ — это перевернутая парабола, проходящая через начало координат и точку $(1;0)$ , то своего максимума она достигает при $p=0,5$ .

Далее, по мере увеличения «асимметрии» вероятностей, $H(p)$ постепенно уменьшается, пока окончательно не превращается в ноль при $p=1$ или при $p=0$ .

В силу симметрии $H(p=0,4)=H(p=0,6)=0,24$ , потому что всё равно, какое именно из двух событий обладает вероятностью $0,4$ , а какое — вероятностью $0,6$ .

С другой стороны, $H(p=0,3)<H(p=0,6)$ (0,21<0,24), потому что в этом втором случае вероятности более «асимметричны», чем в первом случае.

Функция $H_{1}(p)=CH(p)=Cp(1-p)$ , где $C>0$ — какой-то коэффициент, тоже справляется с наложенными на неё «обязанностями»: достигает максимума в $p=0,5$ и минимума (нуля) в $p=1$ и $p=0$ . Это значит, что искомый функционал может быть определён с точностью до некоторого коэффициента.

Пусть теперь полную группу событий образуют три события. Можно и в этом случае рассматривать в качестве энтропии произведение их вероятностей $H_{1}(p,q)=pq(1-p-q)$ и даже можно доказать, что максимума это произведение достигает, когда все вероятности равны между собой: $p=q=1-p-q=1/3$ .

Здесь, правда, возникает одна неприятность. Максимум энтропии для трех событий равен ${\frac {1}{3}}{\frac {1}{3}}{\frac {1}{3}}={\frac {1}{27}}$ — это меньше, чем максимум энтропии для двух событий, который равен ${\frac {1}{2}}{\frac {1}{2}}={\frac {1}{4}}$ . А хотелось бы, чтоб было наоборот: чем больше событий, тем больше неопределенность.

Другая, более серьёзная неприятность заключается в том, что если вероятность хотя бы одного события равна нулю, то и всё произведение вероятностей автоматически становится равным нулю. То есть неопределенность исчезает, становится равной нулю согласно такому функционалу, хотя на самом деле это не так. Неопределенность должна исчезать, когда все вероятности, кроме одной, равны нулю, а эта единственная вероятность равна единице. Тем не менее, для двух исходов таким функционалом вполне можно пользоваться. Но для двух исходов и не нужно никаких функционалов: если известно матожидание распределения некоторой случайной величины $X$ , то уравнение матожидания вместе с условием нормировки как раз дают систему из двух уравнений, из которой однозначно находятся $p_{1}$ и $p_{2}$ . Если же о распределении не известно вообще ничего, то вероятности приравниваются друг к другу, а это можно сделать без всяких функционалов.

Энтропия Шеннона

Клод Шеннон наложил на искомую функцию $H(p_{1},...,p_{n})$ три условия^[3]:

$H(p_{1},...,p_{n})$ должна быть непрерывной функцией от переменных $p_{i}$ ;
если все вероятности $p_{i}$ равны, то функция $A(n)=H({\frac {1}{n}},...,{\frac {1}{n}})\$ является монотонно возрастающей функцией от $n$ . Иными словами, $H\underbrace {({\frac {1}{n}},...,{\frac {1}{n}})} _{n}<H\underbrace {({\frac {1}{n+1}},...,{\frac {1}{n+1}})} _{n+1}$ ;
Закон композиции. Вместо того, чтобы задавать вероятности событий непосредственно, можно сгруппировать первые $k$ из них вместе, как одно событие с соответствующей вероятностью $\omega _{1}=p_{1}+...+p_{k}$ . Оставшиеся — как второе событие с вероятностью $\omega _{2}=p_{k+1}+...+p_{n}$ . Тогда функция $H$ должна подчиняться условию $H({p_{1}},...,{p_{n}})=H({\omega _{1}},{\omega _{2}})+{\omega _{1}}H\left({{\frac {p_{1}}{\omega _{1}}},...,{\frac {p_{k}}{\omega _{1}}}}\right)+{\omega _{2}}H\left({{\frac {p_{k+1}}{\omega _{2}}},...,{\frac {p_{n}}{\omega _{2}}}}\right)$ ;

Закон композиции требует особого рассмотрения, поскольку именно на его основе далее формируется вид функции $H$ . Идея заключается в следующем.

Случайный эксперимент разбивается на два последовательных этапа. На первом этапе с вероятностями $\omega _{1}$ и $\omega _{2}$ выбирается первая (до $k$ ) либо вторая (после $k$ ) часть исходов. На втором этапе выбирается сам исход из выбранной части исходов. При этом исход из выбранной части выбирается уже с условными вероятностями ${\frac {p_{1}}{\omega _{1}}},...,{\frac {p_{k}}{\omega _{1}}}$ , то есть при условии, что данная часть (в данном случае, первая часть) выбрана. Сам Шеннон говорит, что если выбор распадается на два этапа, первоначальная энтропия должна быть взвешенной суммой индивидуальных энтропий, то есть условных энтропий.

Общий смысл таков, что если случайный выбор на первом этапе сделан, то вероятности $\omega _{1}$ и $\omega _{2}$ принимают значения $0$ или $1$ , и дальнейшая неопределенность равна только одной из условных энтропий.

В качестве примера рассмотрим два графа:

На левом графе есть три исхода с вероятностями $p_{1}=1/2$ , $p_{2}=1/3$ , $p_{3}=1/6$ , образующих полную группу событий (то есть $p_{1}+p_{2}+p_{3}=1$ ). На правом графе мы сначала выбираем между двумя возможностями, каждую с вероятностью $1/2$ . Если выбрана вторая возможность, тогда делается ещё один выбор с вероятностями $2/3$ и $1/3$ . Энтропии на обоих графах должны получиться одинаковыми, поскольку в конечном счете получаются те же самые исходы с теми же вероятностями. По закону композиции запишем $H({\frac {1}{2}},{\frac {1}{3}},{\frac {1}{6}})=H({\frac {1}{2}},{\frac {1}{2}})+{\frac {1}{2}}H\left(1\right)+{\frac {1}{2}}H\left({{\frac {1}{3}},{\frac {2}{3}}}\right)=H({\frac {1}{2}},{\frac {1}{2}})+{\frac {1}{2}}H\left({{\frac {1}{3}},{\frac {2}{3}}}\right)$ .

Здесь $H(1)=0$ , поскольку полная группа событий, состоящая всего из одного события, наступающего со стопроцентной вероятностью, порождает нулевую неопределенность. При этом, по словам самого Шеннона, коэффициент $1/2$ появляется потому, что второй выбор появляется только половину всех раз.

В законе композиции первый этап может состоять не из двух возможностей, а из большего числа возможностей с соответствующими вероятностями $\omega _{1}$ , $\omega _{2}$ , $\omega _{3}$ , …

Закон композиции является своеобразным обобщением аддитивного свойства энтропии, хотя и не следует непосредственно из этого свойства. Действительно, пусть некий эксперимент состоит из шести равновероятных исходов. Пусть эти исходы поделены на три равные части: на первом этапе выбирается одна из трех частей, на втором этапе выбирается исход внутри соответствующей части. Тогда можно записать $H({\frac {1}{6}},{\frac {1}{6}},{\frac {1}{6}},{\frac {1}{6}},{\frac {1}{6}},{\frac {1}{6}})=H({\frac {1}{3}},{\frac {1}{3}},{\frac {1}{3}})+{\frac {1}{3}}H\left({{\frac {1}{2}},{\frac {1}{2}}}\right)+{\frac {1}{3}}H\left({{\frac {1}{2}},{\frac {1}{2}}}\right)+{\frac {1}{3}}H\left({{\frac {1}{2}},{\frac {1}{2}}}\right)$ .

Полученное равенство можно переписать так:

$A(6)=A(3)+{\frac {1}{3}}A\left(2\right)+{\frac {1}{3}}A\left(2\right)+{\frac {1}{3}}A\left(2\right)=A(3)+A\left(2\right)$ .

В общем случае $A(mn)=A(m)+A\left(n\right)$ .

Но этот же результат можно получить из других соображений.

Предположим, есть случайный эксперимент с $m$ равновероятными исходами и другой случайный эксперимент с $n$ равновероятными исходами. Пусть эти два случайных эксперимента никак не связаны друг с другом. Но в любом случае их можно рассматривать как один объединённый эксперимент, в котором отдельный исход заключается в том, что произошел $i$ -й исход первого эксперимента и $j$ -й исход второго эксперимента. В таком объединённом эксперименте есть уже $mn$ равновероятных исходов. Поскольку неопределенность двух экспериментов не должна меняться в зависимости от подобной смены точки зрения, то $A(mn)=A(m)+A\left(n\right)$ .

Как следствие этого результата, $A(m^{s})=sA(m)$ , где $s$ — неотрицательное целое. Если $s=0$ , то последнее равенство принимает вид $A(1)=0$ , оставаясь верным равенством.

Закон композиции позволяет выразить энтропию вероятностного распределения, в котором все вероятности — рациональные числа, как взвешенную сумму функций $A$ . Действительно, пусть есть полная группа событий из $n$ несовместных событий с вероятностями $p_{1}=n_{1}/n$ , $p_{2}=n_{2}/n$ , …, $p_{n}=n_{n}/n$ , где $n_{i}$ , $n$ , — натуральные, $n_{1}+...+n_{n}=n$ . Тогда можно записать

$A(n)=H({\frac {n_{1}}{n}},...,{\frac {n_{n}}{n}})+\sum \limits _{i=1}^{n}{{\frac {n_{i}}{n}}A({n_{i}})}$ .

Из этого уравнения уже можно выразить $H({\frac {n_{1}}{n}},...,{\frac {n_{n}}{n}})$ .

Не известно точно, откуда Шеннон взял свой закон композиции. Возможно, он хотел, чтобы его энтропия получилась похожей на энтропию Хартли, и он придумал такое условие (закон композиции), из которого энтропия Шеннона получалась бы однозначным образом.

Теорема:

единственная функция $H$ , удовлетворяющая трем наложенным на неё условиям Шеннона, имеет вид $H=-K\sum \limits _{i=1}^{n}{{p_{i}}\log {p_{i}}}$ , где $K$ — любая положительная константа, а логарифм же берется по любому основанию больше единицы.

Доказательство.

Доказательство сводится к выяснению вида функции $A$ .

Для любого натурального $t$ и любого, сколь угодно большого натурального $n$ можно найти такое натуральное $m>1$ и неотрицательное целое $s$ , что ${m^{s}}\leq {t^{n}}\leq {m^{s+1}}$ . Потенцируя обе части неравенства и деля на $n\ln m$ , получим ${\frac {s}{n}}\leq {\frac {\ln t}{\ln m}}\leq {\frac {s+1}{n}}$ , откуда $\left|{{\frac {s}{n}}-{{\log }_{m}}t}\right|\leq {\frac {1}{n}}$ . Поскольку основание натурального логарифма больше единицы, то знак неравенств не меняется.

С другой стороны, исходя из монотонности $A(n)$ , можно записать $A({m^{s}})\leq A({t^{n}})\leq A({m^{s+1})}$ , $sA({m})\leq nA({t})\leq (s+1)A({m)}$ , откуда аналогично ${\frac {s}{n}}\leq {\frac {A(t)}{A(m)}}\leq {\frac {s+1}{n}}$ , $\left|{{\frac {s}{n}}-{\frac {A(t)}{A(m)}}}\right|\leq {\frac {1}{n}}$ . Тогда можно записать $\left|{{\frac {A(t)}{A(m)}}-{{\log }_{m}}t}\right|\leq {\frac {2}{n}}$ . Переходя к пределу по $n$ при $n\to \infty$ , получим ${\frac {A(t)}{A(m)}}={\log _{m}}t$ . Отсюда $A(t)=K{\log _{m}}t$ , где $K$ — произвольная положительная константа, $m$ — произвольное натуральное основание логарифма (больше единицы). Произвольность константы $K$ связана не только с тем, что она сокращается в числителе и знаменателе, но также и с тем, что основание логарифма выбирается произвольно. Можно перейти к натуральному логарифму, и получится $A(t)=K{\log _{m}}t=K{\frac {\ln t}{\ln m}}=K'\ln t$ . Это говорит о том, что основание логарифма не обязательно должно быть натуральным числом. Далее, используя представление функции $H$ через функцию $A$ , можно записать $H({\frac {n_{1}}{n}},...,{\frac {n_{n}}{n}})=A(n)-\sum \limits _{i=1}^{n}{{\frac {n_{i}}{n}}A({n_{i}})}=K\log n-\sum \limits _{i=1}^{n}{{\frac {n_{i}}{n}}K\log {n_{i}}}=-\sum \limits _{i=1}^{n}{{\frac {n_{i}}{n}}K\log {\frac {n_{i}}{n}}}=-K\sum \limits _{i=1}^{n}{{p_{i}}\log {p_{i}}}$ Поскольку любое действительное число можно сколь угодно точно аппроксимировать рациональным числом, а сама функция $H$ непрерывна (то есть при небольшом изменении аргумента меняется незначительно), то Шеннон предложил использовать эту формулу и для вероятностей, заданных действительными числами.

Теорема доказана.

Если вероятность $p$ равна нулю, то нужно рассматривать предел произведения $p\log p$ при $p$ , стремящемся к нулю:

$\lim _{p\to 0+}p\ln p=\lim _{p\to 0+}{\frac {\ln p}{\frac {1}{p}}}=\lim _{p\to 0+}{\frac {\left({\ln p}\right)'}{\left({\frac {1}{p}}\right)'}}=\lim _{p\to 0+}{\frac {1/p}{-1/{p^{2}}}}=-\lim _{p\to 0+}p=0$

Максимум энтропии Шеннона и метод множителей Лагранжа

Можно доказать^[4], что энтропия Шеннона принимает максимальное значение на равномерном распределении. Чтобы доказать это, найдем условный максимум энтропии Шеннона $H({p_{1}},...,{p_{n}})=-\sum \limits _{i=1}^{n}{{p_{i}}\ln {p_{i}}}$ при условии нормировки $\sum \limits _{i=1}^{n}{p_{i}}=1$ .

Чтобы сделать это, воспользуемся методом множителей Лагранжа для поиска условных экстремумов. Этот метод вкратце заключается в следующем.

Предположим, что требуется найти локальный экстремум непрерывной функции $f(x_{1},...,x_{n})$ $n$ переменных, имеющей частные производные по всем переменным, при условии, что $\varphi _{1}(x_{1},...,x_{n})=0$ ,…, $\varphi _{k}(x_{1},...,x_{n})=0$ , где $\varphi _{1}$ ,…, $\varphi _{k}$ — непрерывные функции, имеющие частные производные по всем переменным, $k<n$ . Тогда составляется функция Лагранжа вида $L({x_{1}},...,{x_{n}})=f({x_{1}},...,{x_{n}})+\sum \limits _{i=1}^{k}{{\lambda _{i}}{\varphi _{i}}({x_{1}},...,{x_{n}})}$ , где числа $\lambda _{i}$ называются множителями Лагранжа.

Необходимым условием существования условного экстремума $f$ в некоторой точке является равенство нулю либо несуществование всех частных производных её функции Лагранжа в этой точке. Поэтому составляется и решается система из $n$ частных производных функции Лагранжа, приравненных к нулю, а также из $k$ условий, наложенных на экстремум. Решением системы (если оно существует) является координата экстремума, а также значения множителей Лагранжа.

В случае энтропии Шеннона функция Лагранжа имеет вид: $L({p_{1}},...,{p_{n}})=H({p_{1}},...,{p_{n}})+\lambda \left({\sum \limits _{i=1}^{n}{p_{i}}-1}\right)$ .

Запишем систему уравнений с необходимым условием существования экстремума:

$\left\{{\begin{array}{l}{\frac {\partial L({p_{1}},...,{p_{n}})}{\partial {p_{1}}}}=0\\...\\{\frac {\partial L({p_{1}},...,{p_{n}})}{\partial {p_{n}}}}=0\\\sum \limits _{i=1}^{n}{p_{i}}=1\end{array}}\right.$ Решая её, получим: $\left\{{\begin{array}{l}-(\ln {p_{1}}+1)+\lambda =0\\...\\-(\ln {p_{n}}+1)+\lambda =0\end{array}}\right.$

Поскольку все уравнения одинаковы, то ${p_{1}}={p_{2}}=...={p_{n}}=1/n$ , $\lambda =1+\ln {\frac {1}{n}}$ .

Итак, точка, в которой может существовать экстремум, единственная. Учитывая, что функция $H$ непрерывная и неотрицательно определённая, принимающая минимальное значение ноль (в случае, когда одна из вероятностей равна единице, а все остальные — нулю), то найденный экстремум является точкой глобального условного максимума, а сам максимум равен $H({\frac {1}{n}},...,{\frac {1}{n}})=-\sum \limits _{i=1}^{n}{{\frac {1}{n}}\ln {\frac {1}{n}}}=\ln n$ .

Можно также доказать, что в наборе вероятностей $p_{1},...,p_{n}$ для $n$ несовместных элементарных исходов всякое изменение двух вероятностей в сторону их выравнивания (без изменения числа самих исходов) увеличивает энтропию распределения.

Доказать это просто. Поскольку изменяются только две вероятности, например, $p_{1}$ и $p_{2}$ , то остальные вероятности остаются неизменными. Поэтому слагаемые, входящие в формулу энтропии, связанные с остальными вероятностями, останутся неизменными и на приращение энтропии не повлияют. В то же время сумма $p_{1}+p_{2}$ тоже останется неизменной (по той же причине). Поэтому доказательство достаточно провести всего для двух несовместных исходов, образующих полную группу событий — тогда утверждение можно считать доказанным и для произвольного $n$ числа исходов.

Обозначим $p_{1}=p$ , $p_{2}=1-p$ и рассмотрим функцию $H(p,1-p)=-p\ln p-(1-p)\ln(1-p)$ .

Её график зависимости от $p$ очень похож на перевернутую параболу, проходящую через начало координат. Максимум достигается в точке $p=1-p=0,5$ . Кроме того, эта функция зеркально симметрична относительно линии $p=0,5$ . Это следует из того, что $H(p,1-p)=H(1-p,p)$ . Поэтому, исходя из графика, любое изменение вероятностей в сторону выравнивания приводит к увеличению энтропии.

Энтропия непрерывного распределения

Шеннон первоначально записал^[3] следующую формулу для энтропии непрерывного распределения, которая известна также как дифференциальная энтропия:

$H(X)=-\int \limits _{-\infty }^{\infty }{f(x)\log f(x)dx}$ .

Здесь $f(x)$ — неизвестная функция распределения плотности вероятностей случайной величины $X$ . (Если $f(x)=0$ , то подынтегральная функция заменяется своим пределом в этой точке $x$ .) Однако, в отличие от шенноновской формулы энтропии дискретного распределения, данная формула не является результатом какого-либо вывода (Шеннон просто заменил знак суммы знаком интеграла). И, строго говоря, она не может быть выведена последовательным переходом от дискретной формулы энтропии к непрерывной посредством вычисления предела интегральных частичных сумм интеграла Римана^[5] (получится бесконечная величина). Тем не менее, дифференциальная энтропия имеет смысл средней неопределенности выбора случайной величины с произвольным законом распределения за вычетом неопределенности случайной величины, равномерно распределенной в единичном интервале.

Кроме дифференциальной энтропии, известны также англ. Kullback–Leibler divergence и англ. Principle_of_maximum_entropy#Continuous_case. Но далее для объяснения принципа максимальной энтропии будет использована именно дифференциальная энтропия.

Максимум дифференциальной энтропии и вариационное исчисление

Можно доказать, что дифференциальная энтропия принимает максимальное значение на равномерном распределении. Чтобы доказать это, найдем условный максимум дифференциальной энтропии $H(X)=-\int \limits _{-\infty }^{\infty }{f(x)\ln f(x)dx}$ при условии, что $\int \limits _{-\infty }^{\infty }{f(x)dx}=1$ .

В этих условиях нужно найти такую функцию $f(x)$ , чтобы интеграл дифференциальной энтропии принял максимальное значение. В этом случае сам вид функции $f(x)$ становится некой переменной величиной, поэтому необходимо использовать вариационное исчисление^[3], основной задачей которого является поиск функции, на которой заданный функционал достигает экстремальных значений.

Метод вариации напоминает метод Лагранжа и вкратце заключается в следующем. Пусть задан функционал $J=\int \limits _{a}^{b}{F(x,f(x),f'(x))dx}$ с подынтегральной функцией $F(x,f(x),f'(x))$ , обладающей непрерывными первыми частными производными, называемой функцией Лагранжа. Если этот функционал достигает экстремума на некоторой функции $f(x)$ , то для неё должно выполняться дифференциальное уравнение в частных производных ${\frac {\partial F}{\partial f}}={\frac {d}{dx}}{\frac {\partial F}{\partial {f'}}}$ , называемое уравнением Эйлера-Лагранжа. Другими словами, данное уравнение является необходимым условием существования экстремума функционала $J$ на функции $f(x)$ . Если на функцию $f(x)$ накладывается дополнительное условие вида $\int \limits _{a}^{b}{\varphi (f(x))dx}=c$ , то искомый экстремум называется условным, а функция Лагранжа принимает вид $L=F+\lambda \varphi$ , и дифференциальное уравнение нужно решать уже для этой новой функции. Найденная функция $f(x)$ будет зависеть не только от $x$ , но и от параметра $\lambda$ . Тогда нужно подставить $f(x)$ в интеграл условия и найти $\lambda$ .

В случае дифференциальной энтропии функция Лагранжа принимает вид $L=-f(x)\ln f(x)+\lambda f(x)$ . Тогда $\left\{{\begin{array}{l}{\frac {\partial L}{\partial f}}=-\ln f-1+\lambda \\{\frac {\partial L}{\partial f'}}=0\\{\frac {d}{dx}}{\frac {\partial L}{\partial f'}}=0\end{array}}\right.$ , откуда уравнение Эйлера-Лагранжа принимает вид ${\frac {\partial L}{\partial f}}=-\ln f-1+\lambda =0$ .

Решением этого уравнения является функция $f(x)={e^{\lambda -1}}$ , то есть константа от $x$ . Подставляем её в условие и получаем $\int \limits _{-\infty }^{\infty }{{e^{\lambda -1}}dx}=1$ .

Такое уравнение не имеет решений. Случайная величина не может быть распределена равномерно на всей области действительных чисел. Пусть все возможные значения $X$ лежат на некотором отрезке $[a;b]$ . Тогда $\int \limits _{a}^{b}{{e^{\lambda -1}}dx}=1$ , откуда $\lambda =1-\ln(b-a)$ , $f(x)={e^{\lambda -1}}={\frac {1}{b-a}}$ . Для всех остальных $x$ верно $f(x)=0$ .

Экстремальные распределения

Сам по себе найденный функционал (энтропия Шеннона в дискретной либо дифференциальной форме) пока что ещё ничего не даёт. Поскольку ничего не известно об исходах случайного эксперимента, принцип максимума энтропии предписывает назначить всем исходам равные вероятности. Если же речь идет о непрерывной случайной величине, то предполагается, что она распределена равномерно. Но для того, чтобы провести подобное назначение, никакого функционала не требуется. Функционал позволяет лишь количественно сравнивать неопределенности различных распределений.

Смысл принципа максимальной энтропии начинает проявляться тогда, когда на вероятностное распределение наложены какие-либо ограничения. Принцип максимума энтропии в этом случае заключается в том, чтобы найти максимум энтропии при наложенных ограничениях. Полученное таким образом распределение называется экстремальным.

Найдём максимум энтропии в случаях, когда на распределение случайной величины наложены какие-либо ограничения, например, известны какие-либо её моменты. При использовании метода множителей Лагранжа и метода вариационного исчисления будет показано, что:

если известно матожидание или второй начальный момент, или и то, и другое дискретной случайной величины, то её экстремальное распределение является одной из разновидностей дискретного распределения Гиббса
если известно матожидание непрерывной случайной величины, то её экстремальное распределение является непрерывным распределением Гиббса
если известны матожидание и дисперсия непрерывной случайной величины, то её экстремальное распределение является нормальным распределением с этими параметрами. Если матожидание не известно, оно назначается равным нулю.

О случайной величине не известно ничего (дискретный и непрерывный случаи)

В этом случае принцип максимума энтропии предписывает считать, что случайная величина распределена равномерно. Уже было показано ранее, что энтропия Шеннона в любой (дискретной либо непрерывной) форме принимает максимально возможное значение на таком распределении.

Известно только матожидание (дискретный случай)

Предположим, что известно только матожидание дискретного распределения вероятностей некоторой случайной величины $X$ : $M[X]=\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}=m$ . Каково в этом случае само распределение? На распределение накладываются дополнительные ограничения:

$\forall i:0\leq {p_{i}}\leq 1$
$\sum \limits _{i=1}^{n}{p_{i}}=1$

Согласно принципу максимальной энтропии нужно максимизировать при этих условиях функцию $H({p_{1}},...,{p_{n}})=-\sum \limits _{i=1}^{n}{{p_{i}}\ln {p_{i}}}$

Составим функцию Лагранжа и найдем точки возможного экстремума:

$L({p_{1}},...,{p_{n}})=H({p_{1}},...,{p_{n}})+{\lambda _{1}}\left({\sum \limits _{i=1}^{n}{p_{i}}-1}\right)+{\lambda _{2}}\left({\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}-m}\right)$

Система из частных производных и наложенных условий имеет вид:

$\left\{{\begin{array}{l}{\frac {\partial L({p_{1}},...,{p_{n}})}{\partial {p_{1}}}}=-(\ln {p_{1}}+1)+{\lambda _{1}}+{\lambda _{2}}{x_{1}}=0\\...\\{\frac {\partial L({p_{1}},...,{p_{n}})}{\partial {p_{n}}}}=-(\ln {p_{n}}+1)+{\lambda _{1}}+{\lambda _{2}}{x_{n}}=0\\m=\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}\\\sum \limits _{i=1}^{n}{p_{i}}=1\end{array}}\right.$

Вычитая из первого уравнения $i$ -е, получим ${p_{i}}={p_{1}}{e^{{\lambda _{2}}({x_{i}}-{x_{1}})}}$ .

Объединяя полученное уравнение в систему с условием нормировки и решая её, получим:

$\left\{{\begin{array}{l}{p_{i}}={p_{1}}{e^{{\lambda _{2}}({x_{i}}-{x_{1}})}}\\1=\sum \limits _{k=1}^{n}{p_{k}}=\sum \limits _{k=1}^{n}{{p_{1}}{e^{{\lambda _{2}}({x_{k}}-{x_{1}})}}}={p_{1}}{e^{-{\lambda _{2}}{x_{1}}}}\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}\end{array}}\right.$ , откуда ${p_{i}}={\frac {e^{{\lambda _{2}}{x_{i}}}}{\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}}}$ .

Теперь из $i$ -го уравнения ${p_{i}}={e^{{\lambda _{2}}{x_{i}}+{\lambda _{1}}-1}}={e^{{\lambda _{1}}-1}}{e^{{\lambda _{2}}{x_{i}}}}$ следует $\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}={e^{1-{\lambda _{1}}}}$ .

Наконец, исходя из уравнения для матожидания, можно записать $m=\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}=\sum \limits _{i=1}^{n}{\left({{x_{i}}{\frac {e^{{\lambda _{2}}{x_{i}}}}{\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}}}}\right)}={\frac {\sum \limits _{k=1}^{n}{{x_{k}}{e^{{\lambda _{2}}{x_{k}}}}}}{\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}}}$ , откуда следует $\sum \limits _{k=1}^{n}{({x_{k}}-m){e^{{\lambda _{2}}{x_{k}}}}}=0$ .

Окончательно исходная система может быть представлена в виде:

$\left\{{\begin{array}{l}{p_{i}}={\frac {e^{{\lambda _{2}}{x_{i}}}}{\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}}},i\in \{1,...,n\}\\\sum \limits _{k=1}^{n}{({x_{k}}-m){e^{{\lambda _{2}}{x_{k}}}}}=0\\{e^{1-{\lambda _{1}}}}=\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}}}\end{array}}\right.$

Достаточно легко доказать, что решение второго уравнения системы относительно $\lambda _{2}$ всегда существует и единственно, пусть и не всегда представимо в виде явной функции аргумента $m$ . При желании (хотя и не обязательно) можно из третьего уравнения выразить $\lambda _{1}$ через $\lambda _{2}$ . Но, самое главное, при подстановке $\lambda _{2}$ в первое уравнение, получится дискретное вероятностное распределение с матожиданием $m$ .

Поскольку найденное решение единственно, то найденная точка скорее всего является экстремумом энтропии, причем, этот экстремум — глобальный условный максимум.

Найденное вероятностное распределение $p_{i}$ называется англ. Boltzmann_distribution, которое также известно как распределение Гиббса.

Известен только второй начальный момент (дискретный случай)

Предположим, что известен только второй начальный момент ${\delta ^{2}}$ дискретного распределения вероятностей некоторой случайной величины $X$ : ${\delta ^{2}}=\sum \limits _{i=1}^{n}{{x_{i}}^{2}{p_{i}}}$ . Каково в этом случае само распределение?

Этот случай ничем не отличается от предыдущего, за исключением того, что величины $x_{i}$ нужно заменить величинами $x_{i}^{2}$ , $m$ нужно заменить на ${\delta ^{2}}$ . Окончательно распределение будет иметь вид $\left\{{\begin{array}{l}P(X={x_{i}})={p_{i}}={\frac {e^{{\lambda _{2}}{x_{i}}^{2}}}{\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}^{2}}}}},i\in \{1,...,n\}\\\sum \limits _{k=1}^{n}{({x_{k}}^{2}-{\delta ^{2}}){e^{{\lambda _{2}}{x_{k}}^{2}}}}=0\\{e^{1-{\lambda _{1}}}}=\sum \limits _{k=1}^{n}{e^{{\lambda _{2}}{x_{k}}^{2}}}\end{array}}\right.$

Легко видеть в этом случае, что, если $x_{i}=-x_{j}$ , то $P(X=x_{i})=P(X=x_{j})$ .

Известны матожидание и второй начальный момент (дискретный случай)

Функция Лагранжа в этом случае имеет вид $L({p_{1}},...,{p_{n}})=H({p_{1}},...,{p_{n}})+{\lambda _{1}}\left({\sum \limits _{i=1}^{n}{p_{i}}-1}\right)+{\lambda _{2}}\left({\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}-m}\right)+{\lambda _{3}}\left({\sum \limits _{i=1}^{n}{{x_{i}}^{2}{p_{i}}}-{\delta ^{2}}}\right)$

Система уравнений, являющаяся необходимым условием существования экстремума, имеет вид:

$\left\{{\begin{array}{l}-(\ln {p_{1}}+1)+{\lambda _{1}}+{\lambda _{2}}{x_{1}}+{\lambda _{3}}{x_{1}}^{2}=0\\...\\-(\ln {p_{n}}+1)+{\lambda _{1}}+{\lambda _{2}}{x_{n}}+{\lambda _{3}}{x_{n}}^{2}=0\\1=\sum \limits _{i=1}^{n}{p_{i}}\\m=\sum \limits _{i=1}^{n}{{x_{i}}{p_{i}}}\\{\delta ^{2}}=\sum \limits _{i=1}^{n}{{x_{i}}^{2}{p_{i}}}\end{array}}\right.$ . Её можно привести к виду $\left\{{\begin{array}{l}{p_{i}}={\frac {e^{{x_{i}}({\lambda _{3}}{x_{i}}+{\lambda _{2}})}}{\sum \limits _{k=1}^{n}{e^{{x_{k}}({\lambda _{3}}{x_{k}}+{\lambda _{2}})}}}}\\\sum \limits _{k=1}^{n}{({x_{k}}-m){e^{{x_{k}}({\lambda _{3}}{x_{k}}+{\lambda _{2}})}}}=0\\\sum \limits _{k=1}^{n}{({x_{k}}^{2}-{\delta ^{2}}){e^{{x_{k}}({\lambda _{3}}{x_{k}}+{\lambda _{2}})}}}=0\\{e^{1-{\lambda _{1}}}}=\sum \limits _{k=1}^{n}{e^{{x_{k}}({\lambda _{3}}{x_{k}}+{\lambda _{2}})}}\end{array}}\right.$

Задача доказательства существования и единственности решения в данном случае гораздо более сложная. Тем более, задача нахождения параметров $\lambda _{1}$ и $\lambda _{2}$ из второго и третьего уравнений системы. Однако, если доказательство возможно, тогда экстремальное распределение с заданными параметрами будет иметь как раз найденный вид.

Известно только матожидание (непрерывный случай)

Предположим, что известно только матожидание непрерывного распределения вероятностей некоторой случайной величины $X$ : $M[X]=\int \limits _{-\infty }^{\infty }{xf(x)dx}=m$ . Какова в этом случае функция $f(x)$ распределения плотности вероятностей?

На распределение накладываются дополнительные ограничения:

$\forall x:f(x)\geq 0$
$\int \limits _{-\infty }^{\infty }{f(x)dx}=1$

Согласно принципу максимальной энтропии нужно максимизировать при этих условиях функцию $H(X)=-\int \limits _{-\infty }^{\infty }{f(x)\ln f(x)dx}$

Составим функцию Лагранжа и найдем $f(x)$ , для которой возможен экстремум $H$ : $L=-f(x)\ln f(x)+{\lambda _{1}}f(x)+{\lambda _{2}}xf(x)$

Уравнение Эйлера-Лагранжа в данном случае имеет вид ${\frac {\partial L}{\partial f}}=-\ln f-1+{\lambda _{1}}+{\lambda _{2}}x=0$ .

Его решением является функция $f(x)={e^{{\lambda _{2}}x+{\lambda _{1}}-1}}$ , то есть экспонента.

Площадь под графиком такой функции может быть конечной только в том случае, если к бесконечности устремить не более одного предела интегрирования. Поэтому будем считать, что случайная величина $X$ может принимать значения только на некоторой конечной или полубесконечной области $G$ , не обязательно односвязной. Во всех остальных точках функцию $f(x)$ будем считать равной нулю.

Чтобы найти значения коэффициентов $\lambda _{1}$ и $\lambda _{2}$ , нужно составить систему уравнений из наложенных на распределение условий и решить её. Система имеет вид:

$\left\{{\begin{array}{l}\int \limits _{-\infty }^{\infty }{xf(x)dx}=\int \limits _{G}{x{e^{{\lambda _{2}}x+{\lambda _{1}}-1}}dx}=m\\\int \limits _{-\infty }^{\infty }{f(x)dx}=\int \limits _{G}{{e^{{\lambda _{2}}x+{\lambda _{1}}-1}}dx}=1\end{array}}\right.$ и может быть приведена к виду $\left\{{\begin{array}{l}m={\frac {\int \limits _{G}{x{e^{{\lambda _{2}}x}}dx}}{\int \limits _{G}{{e^{{\lambda _{2}}x}}dx}}}\\{e^{1-{\lambda _{1}}}}=\int \limits _{G}{{e^{{\lambda _{2}}x}}dx}\end{array}}\right.$ .

Здесь все интегралы — «берущиеся», поэтому можно однозначно выразить $\lambda _{2}$ через $m$ — стоит лишь более конкретно задать область $G$ . При этом найденное решение единственно.

Поскольку коэффициент $\lambda _{1}$ однозначно выражается через $\lambda _{2}$ , то и он единственнен. В силу единственности найденного решения функция $f(x)$ доставляет максимум функционалу $H$ . Функция $f(x)$ при этом имеет вид $f(x)={\frac {e^{{\lambda _{2}}x}}{\int \limits _{G}{{e^{{\lambda _{2}}t}}dt}}}$ .

Найденное распределение называется распределением Больцмана (или Гиббса) непрерывной случайной величины.

Известен только второй начальный момент (непрерывный случай)

Предположим, что известен только второй начальный момент ${\delta ^{2}}$ распределения вероятностей некоторой непрерывной случайной величины $X$ : ${\delta ^{2}}=\int \limits _{-\infty }^{\infty }{{x^{2}}f(x)dx}$ . Каково в этом случае само распределение?

Функция Лагранжа в этом случае имеет вид $L=-f(x)\ln f(x)+{\lambda _{1}}f(x)+{\lambda _{2}}{x^{2}}f(x)$ .

Уравнение Эйлера-Лагранжа имеет вид ${\frac {\partial L}{\partial f}}=-\ln f-1+{\lambda _{1}}+{\lambda _{2}}{x^{2}}=0$ .

Его решением является функция $f(x)={e^{{\lambda _{2}}{x^{2}}+{\lambda _{1}}-1}}$ .

Площадь под графиком $f(x)$ может быть конечной только в случае $\lambda _{2}<0$ . Если $\lambda _{2}=0$ , то получается равномерное распределение, которое уже было рассмотрено ранее.

Чтобы найти значения коэффициентов $\lambda _{1}$ и $\lambda _{2}$ , нужно составить систему уравнений из наложенных на распределение условий и решить её:

$\left\{{\begin{array}{l}{\delta ^{2}}=\int \limits _{-\infty }^{\infty }{{x^{2}}f(x)dx}=\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{{\lambda _{2}}{x^{2}}+{\lambda _{1}}-1}}dx}\\1=\int \limits _{-\infty }^{\infty }{f(x)dx}=\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{2}}{x^{2}}+{\lambda _{1}}-1}}dx}\end{array}}\right.$

Поскольку здесь присутствует определённый интеграл Эйлера-Пуассона, то систему можно записать в виде:

$\left\{{\begin{array}{l}{\delta ^{2}}={\frac {\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{{\lambda _{2}}{x^{2}}}}dx}}{\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{2}}{x^{2}}}}dx}}}\\\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{{\lambda _{2}}{x^{2}}}}dx}=-{\frac {1}{2{\lambda _{2}}}}\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{2}}{x^{2}}}}dx}\\{e^{1-{\lambda _{1}}}}=\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{2}}{x^{2}}}}dx}={\sqrt {-{\frac {\pi }{\lambda _{2}}}}}\end{array}}\right.$ , откуда окончательно $\left\{{\begin{array}{l}f(x)={e^{{\lambda _{1}}-1}}{e^{{\lambda _{2}}{x^{2}}}}={\frac {1}{\delta {\sqrt {2\pi }}}}{e^{-{\frac {1}{2}}{{\left({\frac {x}{\delta }}\right)}^{2}}}}\\{\delta ^{2}}=-{\frac {1}{2{\lambda _{2}}}}\\{e^{1-{\lambda _{1}}}}={\sqrt {-{\frac {\pi }{\lambda _{2}}}}}\end{array}}\right.$

Итак, распределение $X$ является нормальным распределением с нулевым матожиданием и дисперсией ${\delta ^{2}}$ .

Известны матожидание и второй начальный момент (непрерывный случай)

Функция Лагранжа в этом случае имеет вид $L=-f(x)\ln f(x)+{\lambda _{1}}f(x)+{\lambda _{2}}xf(x)+{\lambda _{3}}{x^{2}}f(x)$ .

Уравнение Эйлера-Лагранжа имеет вид ${\frac {\partial L}{\partial f}}=-\ln f-1+{\lambda _{1}}+{\lambda _{2}}x+{\lambda _{3}}{x^{2}}=0$ .

Его решением является функция $f(x)={e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}$ .

Опять примем $\lambda _{3}<0$ .

Чтобы найти значения коэффициентов $\lambda _{1}$ , $\lambda _{2}$ , $\lambda _{3}$ , нужно составить систему уравнений из наложенных на распределение условий и решить её:

$\left\{{\begin{array}{l}{\delta ^{2}}=\int \limits _{-\infty }^{\infty }{{x^{2}}f(x)dx}=\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}\\m=\int \limits _{-\infty }^{\infty }{xf(x)dx}=\int \limits _{-\infty }^{\infty }{x{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}\\1=\int \limits _{-\infty }^{\infty }{f(x)dx}=\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}\end{array}}\right.$

Степень числа $e$ в интегралах может быть представлена в виде: ${\lambda _{3}}{x^{2}}+{\lambda _{2}}x=-{\frac {1}{2}}{\frac {{{\left({x-{\frac {\lambda _{2}}{-2{\lambda _{3}}}}}\right)}^{2}}-{{\left({\frac {\lambda _{2}}{-2{\lambda _{3}}}}\right)}^{2}}}{1/(-2{\lambda _{3}})}}=-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}$ , где $m'={\frac {\lambda _{2}}{-2{\lambda _{3}}}}$ , $D=-{\frac {1}{2{\lambda _{3}}}}$ .

Тогда

$\left\{{\begin{array}{l}{\frac {m}{1}}={\frac {\int \limits _{-\infty }^{\infty }{x{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}}{\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}}}={\frac {{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{x{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x}}dx}}{{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x}}dx}}}={\frac {{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{x{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}dx}}{{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}dx}}}={\frac {m'}{1}}\\{\frac {\delta ^{2}}{1}}={\frac {\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}}{\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}}}={\frac {{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}dx}}{{\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}dx}}}={\frac {1}{\sqrt {D2\pi }}}\int \limits _{-\infty }^{\infty }{{x^{2}}{e^{-{\frac {1}{2}}{\frac {{\left({x-m'}\right)}^{2}}{D}}}}dx}=D+m{'^{2}}\\1=\int \limits _{-\infty }^{\infty }{{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x+{\lambda _{1}}-1}}dx}={e^{{\lambda _{1}}-1}}\int \limits _{-\infty }^{\infty }{{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}dx}={e^{{\lambda _{1}}-1+{\frac {m{'^{2}}}{2D}}}}{\sqrt {D2\pi }}\end{array}}\right.$ ,

откуда

$\left\{{\begin{array}{l}m=m'={\frac {\lambda _{2}}{-2{\lambda _{3}}}}\\{\delta ^{2}}-{m^{2}}={\delta ^{2}}-m{'^{2}}=D=-{\frac {1}{2{\lambda _{3}}}}\\{e^{{\lambda _{1}}-1}}={\frac {e^{-{\frac {m^{2}}{2D}}}}{\sqrt {D2\pi }}}\end{array}}\right.$ .

$D$ является дисперсией распределения $f(x)$ .

Окончательно функцию $f(x)$ можно записать в виде $f(x)={e^{{\lambda _{1}}-1}}{e^{{\lambda _{3}}{x^{2}}+{\lambda _{2}}x}}={\frac {e^{-{\frac {m^{2}}{2D}}}}{\sqrt {D2\pi }}}{e^{-{\frac {1}{2}}{\frac {{{\left({x-m'}\right)}^{2}}-m{'^{2}}}{D}}}}={\frac {1}{\sqrt {D2\pi }}}{e^{-{\frac {1}{2}}{\frac {{\left({x-m}\right)}^{2}}{D}}}}$ .

Итак, получилось нормальное распределение с матожиданием $m$ и дисперсией $D$ .

Изначально можно было задать не второй начальный момент распределения, а его дисперсию, и всё равно получилось бы нормальное распределение с заданными параметрами.

Таблица экстремальных распределений

В таблице ниже каждое перечисленное распределение максимизирует энтропию при наложенных на распределение условиях, указанных в третьем столбце. В четвёртом столбце указана область определения случайной величины.

Таблица экстремальных распределений
Распределение	Функция вероятности/ плотность вероятности	Ограничения, наложенные на распределение	Область определения случайной величины
Равномерное (дискретное)	$f(k)={\frac {1}{b-a+1}}$	Нет	${\begin{array}{l}\{a,a+1,\\...,\\b-1,b\}\,\\\end{array}}$
Равномерное (непрерывное)	$f(x)={\frac {1}{b-a}}$	Нет	$[a,b]\,$
Бернулли	$f(k)=p^{k}(1-p)^{1-k}$	$M[k]=p\,$	$\{0,1\}\,$
Геометрическое	$f(k)=(1-p)^{k-1}\,p$	$M[k]={\frac {1}{p}}\,$	$\{1,2,3,...\}\,$
Экспоненциальное	$f(x)=\lambda \exp \left(-\lambda x\right)$	$M[x]={\frac {1}{\lambda }}\,$	$[0,\infty )\,$
Лапласа	$f(x)={\frac {1}{2b}}\exp \left(-{\frac {\|x-\mu \|}{b}}\right)$	$M[\|x-\mu \|]=b\,$	$(-\infty ,\infty )\,$
англ. Asymmetric_Laplace_distribution	$f(x)={\frac {\lambda \,e^{-(x-m)\lambda s\kappa ^{s}}}{\kappa +1/\kappa }}\,(s\!=\!\operatorname {sgn}(x\!-\!m))$	$M[(x-m)s\kappa ^{s}]=1/\lambda \,$	$(-\infty ,\infty )\,$
Парето	$f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}$	$M[\ln(x)]={\frac {1}{\alpha }}+\ln(x_{m})\,$	$[x_{m},\infty )\,$
Нормальное	$f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)$	${\begin{array}{l}M[x]=\mu ,\,\\M[(x-\mu )^{2}]=\sigma ^{2}\\\end{array}}$	$(-\infty ,\infty )\,$
англ. Von_Mises_distribution	$f(\theta )={\frac {1}{2\pi I_{0}(\kappa )}}\exp {(\kappa \cos {(\theta -\mu )})}$	${\begin{array}{l}M[\cos \theta ]={\frac {I_{1}(\kappa )}{I_{0}(\kappa )}}\cos \mu ,\,\\M[\sin \theta ]={\frac {I_{1}(\kappa )}{I_{0}(\kappa )}}\sin \mu \\\end{array}}$	$[0,2\pi )\,$
Рэлея	$f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)$	${\begin{array}{l}M[x^{2}]=2\sigma ^{2},\\M[\ln(x)]={\frac {\ln(2\sigma ^{2})-\gamma _{E}}{2}}\,\\\end{array}}$	$[0,\infty )\,$
Бета	$f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{B(\alpha ,\beta )}}$	${\begin{array}{l}M[\ln(x)]=\psi (\alpha )-\psi (\alpha +\beta ),\,\\M[\ln(1-x)]=\psi (\beta )-\psi (\alpha +\beta )\,\\\end{array}}$	$[0,1]\,$
Коши	$f(x)={\frac {1}{\pi (1+x^{2})}}$	$M[\ln(1+x^{2})]=2\ln 2$	$(-\infty ,\infty )\,$
Хи-распределение	$f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)$	${\begin{array}{l}M[x^{2}]=k,\,\\M[\ln(x)]={\frac {1}{2}}\left[\psi \left({\frac {k}{2}}\right)\!+\!\ln(2)\right]\\\end{array}}$	$[0,\infty )\,$
хи-квадрат	$f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)$	${\begin{array}{l}M[x]=k,\,\\M[\ln(x)]=\psi \left({\frac {k}{2}}\right)+\ln(2)\\\end{array}}$	$[0,\infty )\,$
англ. Erlang_distribution	$f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)$	${\begin{array}{l}M[x]=k/\lambda ,\,\\M[\ln(x)]=\psi (k)-\ln(\lambda )\\\end{array}}$	$[0,\infty )\,$
Гамма	$f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}$	${\begin{array}{l}M[x]=k\theta ,\,\\M[\ln(x)]=\psi (k)+\ln(\theta )\\\end{array}}$	$[0,\infty )\,$
Логнормальное	$f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)$	${\begin{array}{l}M[\ln(x)]=\mu ,\\M[(\ln(x)-\mu )^{2}]=\sigma ^{2}\,\\\end{array}}$	$[0,\infty )\,$
Максвелла	$f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)$	${\begin{array}{l}M[x^{2}]=3a^{2},\,\\M[\ln(x)]\!=\!1\!+\!\ln \left({\frac {a}{\sqrt {2}}}\right)\!-\!{\frac {\gamma _{E}}{2}}\\\end{array}}$	$[0,\infty )\,$
Вейбулла	$f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)$	${\begin{array}{l}M[x^{k}]=\lambda ^{k},\\M[\ln(x)]=\ln(\lambda )-{\frac {\gamma _{E}}{k}}\,\\\end{array}}$	$[0,\infty )\,$
Многомерное нормальное	$f_{X}({\vec {x}})=$ ${\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left\|\Sigma \right\|^{1/2}}}$	${\begin{array}{l}M[{\vec {x}}]={\vec {\mu }},\,\\M[({\vec {x}}-{\vec {\mu }})({\vec {x}}-{\vec {\mu }})^{T}]=\Sigma \,\\\end{array}}$	$(-{\vec {\infty }},{\vec {\infty }})\,$
Биномиальное	$f(k)={n \choose k}p^{k}(1-p)^{n-k}$
Пуассона	$f(k)={\frac {\exp ^{-\lambda }\lambda ^{k}}{k!}}$

См. также

Примечания

↑ ¹ ² Jaynes, E. T. Information Theory and Statistical Mechanics (англ.) // Physical Review : journal. — 1957. — Vol. Series II, no. 4. — P. 620—630. — doi:10.1103/PhysRev.106.620. — Bibcode: 1957PhRv..106..620J. Архивировано 14 мая 2011 года.
↑ Jaynes, E. T. Information Theory and Statistical Mechanics II (англ.) // Physical Review : journal. — 1957. — Vol. Series II, no. 2. — P. 171—190. — doi:10.1103/PhysRev.108.171. — Bibcode: 1957PhRv..108..171J. Архивировано 14 мая 2011 года.
↑ ¹ ² ³ C.E. Shannon. A Mathematical Theory of Communication. Архивировано 29 марта 2016 года.
↑ И.Н. Бекман. Информатика. Курс лекций. — С. Этапы формирования понятия энтропии. Архивировано 13 декабря 2016 года.
↑ В.А. Фурсов. Теория информации. — Самара: СГАУ, 2011. — С. 15.

Литература

Голицын Г.А. Информация и творчество. — М.: Русский мир, 1997. — 304 с. — ISBN 5-85810-039-2.
Ю. Г. Рудой. Обобщенная информационная энтропия и неканоническое распределение в равновесной статистической механике
Jaynes, E. T. Information Theory and Statistical Mechanics // Statistical Physics (англ.) / Ford, K. (ed.). — New York: Benjamin, 1963. — P. 181.
Jaynes, E. T., 1986 (new version online 1996), 'Monkeys, kangaroos and $N$ ', in Maximum-Entropy and Bayesian Methods in Applied Statistics, J. H. Justice (ed.), Cambridge University Press, Cambridge, p. 26.
Bajkova, A. T., 1992, The generalization of maximum entropy method for reconstruction of complex functions. Astronomical and Astrophysical Transactions, V.1, issue 4, p. 313—320.
Giffin, A. and Caticha, A., 2007, Updating Probabilities with Data and Moments
Guiasu, S. and Shenitzer, A., 1985, 'The principle of maximum entropy', The Mathematical Intelligencer, 7(1), 42-48.
Harremoës P. and Topsøe F., 2001, Maximum Entropy Fundamentals, Entropy, 3(3), 191—226.
Kapur, J. N.; and Kesavan, H. K., 1992, Entropy optimization principles with applications, Boston: Academic Press. ISBN 0-12-397670-7
Kitamura, Y., 2006, Empirical Likelihood Methods in Econometrics: Theory and Practice, Cowles Foundation Discussion Papers 1569, Cowles Foundation, Yale University.
Lazar, N., 2003, «Bayesian Empirical Likelihood», Biometrika, 90, 319—326.
Owen, A. B., Empirical Likelihood, Chapman and Hall.
Schennach, S. M., 2005, «Bayesian Exponentially Tilted Empirical Likelihood», Biometrika, 92(1), 31-46.
Uffink, Jos, 1995, 'Can the Maximum Entropy Principle be explained as a consistency requirement?', Studies in History and Philosophy of Modern Physics 26B, 223—261.

Ссылки

[:0-1] ¹ ² Jaynes, E. T. Information Theory and Statistical Mechanics (англ.) // Physical Review : journal. — 1957. — Vol. Series II, no. 4. — P. 620—630. — doi:10.1103/PhysRev.106.620. — Bibcode: 1957PhRv..106..620J. Архивировано 14 мая 2011 года.

[2] Jaynes, E. T. Information Theory and Statistical Mechanics II (англ.) // Physical Review : journal. — 1957. — Vol. Series II, no. 2. — P. 171—190. — doi:10.1103/PhysRev.108.171. — Bibcode: 1957PhRv..108..171J. Архивировано 14 мая 2011 года.

[:1-3] ¹ ² ³ C.E. Shannon. A Mathematical Theory of Communication. Архивировано 29 марта 2016 года.

[4] И.Н. Бекман. Информатика. Курс лекций. — С. Этапы формирования понятия энтропии. Архивировано 13 декабря 2016 года.

[5] В.А. Фурсов. Теория информации. — Самара: СГАУ, 2011. — С. 15.

[1]

[2]

[3]

[4]

[5]

Ссылки на внешние ресурсы
Словари и энциклопедии	Большая китайская Большая китайская
В библиографических каталогах	J9U: 987007544252505171 LCCN: sh91000157