Модель бинарного выбора

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает в том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Сущность модели

Пусть переменная $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными $1$ и $0$ . Например, $Y$ может означать наличие/отсутствие каких-либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $X$ , которые оказывают влияние на $Y$ .

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

E(Y\mid X=x)=1\cdot P(Y=1\mid X=x)+0\cdot P(Y=0\mid X=x)=P(Y=1\mid X=x)=p(x)

В связи с этим применение, например, стандартной модели линейной регрессии $y=x^{T}b+\varepsilon$ теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать $p(x)$ через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная $Y^{*}$ , в зависимости от значений которой наблюдаемая переменная $Y$ принимает значение 0 или единица:

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases}}

Предполагается, что скрытая переменная зависит от факторов $X$ в смысле обычной линейной регрессии $y^{*}=x^{T}b+\varepsilon$ , где случайная ошибка имеет распределение $F$ . Тогда

$p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b)=1-F(-x^{T}b)$

Если распределение симметричное, то можно записать

$p(x)=F(x^{T}b)$

Экономическая интерпретация

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции $U(y,x)$ , то есть фактически двух функций $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ и $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$ соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив $\Delta U(x)=U_{1}(x)-U_{0}(x)=x^{T}(b_{1}-b_{0})+(\varepsilon _{1}-\varepsilon _{0})=x^{T}b+\varepsilon$ . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределений

Пробит. В пробит-модели в качестве $F$ используется интегральная функция стандартного нормального распределения $\Phi$ :

p(x)=1-\Phi (-x^{T}b)=\Phi (x^{T}b)

Логит. В логит-модели используется CDF логистического распределения:

p(x)=1-e^{-x^{T}b}/(1+e^{-x^{T}b})=e^{x^{T}b}/(1+e^{x^{T}b})

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

p(x)=1-(1-e^{e^{-x^{T}b}})=e^{e^{-x^{T}b}}

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма $n$ факторов $X$ и зависимой переменной $Y$ . Для данного номера наблюдения используем индекс $t$ . Вероятность получения в наблюдении $t$ значения $y_{t}$ можно смоделировать следующим образом:

P(Y=y_{t})=p^{y_{t}}(x_{t})(1-p(x_{t}))^{1-y_{t}}=(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)

В самом деле, если $y_{t}=1$ , то второй множитель очевидно равен 1, а первый как раз $p(x_{t})$ , если же $y_{t}=0$ , то первый множитель равен единице, а второй — $(1-p(x_{t}))$ . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

L(b)=\prod _{t=1}^{n}(1-F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)

Соответственно логарифмическая функция правдоподобия имеет вид:

l(b)=\sum _{t=1}^{n}y_{t}\ln(1-F(-x_{t}^{T}b))+(1-y_{t})\ln F(-x_{t}^{T}b)

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

{\sqrt {n}}({\hat {b}}-b)\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

где $\Omega ^{-1}$ — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование модели

Статистика отношения правдоподобия

LR=2(l_{1}-l_{0})

,

где $l_{1},l_{0}$ — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой $p(x)$ является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения $\chi ^{2}(k)$ , где $k$ -количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

Псевдо-коэффициент детерминации:

R_{pseudo}^{2}=1-{\frac {1}{1+LR/n}}={\frac {LR}{LR+n}}

Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):

R_{McFadden}^{2}=LRI=1-l_{1}/l_{0}

Оба показателя меняются в пределах от 0 до 1.

Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке

p_{j}={\overline {y}}_{j}=\sum _{i=1}^{n_{j}}{y}_{ij}/n_{j}

и предсказанная средняя вероятность по подгруппе

{\overline {\hat {p}}}_{j}=\sum _{i=1}^{n_{j}}{\hat {p}}_{ij}/n_{j}

.

Тогда значение статистики HL определяется по формуле

HL=\sum _{j=1}^{J}{\frac {n_{j}(p_{j}-{\overline {\hat {p}}}_{j})^{2}}{{\overline {\hat {p}}}_{j}(1-{\overline {\hat {p}}}_{j})}}

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением $\chi ^{2}(J-2)$ .

Статистика Эндрюса (Andrews)

См. также

Литература

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..

Носко В.П. Эконометрика для начинающих (Дополнительные главы). – М.: ИЭПП, 2005. С. 379.

Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.

Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.

Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.

Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.