Цензурированная регрессия

Цензурированная регрессия (англ. Censored regression) — регрессия с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (справа или слева) либо с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression) тем, что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.

Каноническая цензурированная регрессия, цензурированная снизу нулевым значением, носит название тобит (по аналогии с пробит, логит и т. д.) в честь лауреата премии памяти Нобеля по экономике Джеймса Тобина. Собственно исследования цензурированных моделей начались в 1958 году с работы Дж. Тобина, в которой рассматривались расходы семей на автомобили. Для оценки эластичности спроса на автомобили по доходу необходимо оценить модель зависимости логарифма расходов на автомобили от логарифма доходов. Однако, как показал Тобин, такая оценка будет смещенной и несостоятельной, так как для семей с низким доходом (ниже некоторого порога) величина расходов равна нулю независимо от конкретной величины дохода и других факторов. Тобин впервые и предложил подход к оценке таких моделей, позволяющий получить состоятельные оценки параметров модели.

Математическое описание

В цензурированной модели наблюдается не сама зависимая переменная, а ее значения в пределах цензурирования. То есть предполагается, что есть латентная переменная $y^{*}$ , для которой справедлива обычная регрессионная модель $y^{*}=x^{T}b+\sigma \varepsilon$ , однако фактически наблюдается другая переменная, которая определяется в общем случае следующим образом:

y={\begin{cases}y_{min},y^{*}\leqslant y_{min}\\y^{*},y_{min}<y^{*}<y_{max}\\y_{max},y^{*}\geqslant y_{max}\end{cases}}

Если $y_{min}=0,y_{max}=\infty$ , то имеем каноническую цензурированную модель (тобит):

y={\begin{cases}0,y^{*}\leqslant 0\\y^{*},y^{*}>0\end{cases}}

Рассмотрим математическое ожидание наблюдаемой зависимой переменной на примере тобит-модели с нормально распределенной ошибкой:

E(y)=P(y^{*}\leqslant 0)E(y|y^{*}\leqslant 0)+P(y^{*}>0)E(y|y^{*}>0)=P(y^{*}\leqslant 0)\cdot 0+P(\varepsilon >-x^{T}b/\sigma )(x^{T}b+\sigma E(\varepsilon |\varepsilon >-x^{T}b/\sigma ))

Если $\phi$ — плотность, а $\Phi$ — интегральная функция распределения случайной ошибки, то

P(\varepsilon >-x^{T}b/\sigma )=\Phi (x^{T}b/\sigma )

,

E(\varepsilon |\varepsilon >-x^{T}b/\sigma )=\phi (-x^{T}b/\sigma )/\Phi (x^{T}b/\sigma )

.

Следовательно, окончательно имеем

E(y)=\Phi (x^{T}b/\sigma )\cdot x^{T}b+\sigma \cdot \phi (x^{T}b/\sigma )

.

Очевидно, что это выражение не равно $x^{T}b$ , и, следовательно, построение обычной регрессии приведет к смещенным и несостоятельным оценкам.

Оценка параметров

Оценка параметров осуществляется методом максимального правдоподобия.

Логарифмическая функция правдоподобия цензурированной модели

$l(b,\sigma )=\sum _{y_{t}=y_{min}}\ln F((y_{min}-x_{t}^{T}b)/\sigma )+\sum _{y_{min}<y_{t}<y_{max}}\ln f((y_{t}-x_{t}^{T}b)/\sigma )+\sum _{y_{t}=y_{max}}\ln(1-F((y_{max}-x_{t}^{T}b)/\sigma ))$ ,

где $f,F$ — соответственно плотность и интегральная функция распределения случайной ошибки $\varepsilon$ .

Максимизация данной функции по неизвестным параметрам позволяет найти их оценки.

Модель Хекмана

Модель Тобина имеет один недостаток. Дело в том, что значение y=0 может означать выбор «не участвовать» (в расходах на отдых, например), а значения $y>0$ можно интерпретировать как «интенсивность участия». В тобит-модели и выбор «участвовать — не участвовать», и «интенсивность участия» определяются одними и теми же факторами, и факторы действуют в одном направлении. Классический пример фактора и ситуации неоднозначного влияния — количество детей как фактор, влияющий на расходы семьи. Очевидно, что большое количество детей может негативно влиять на решение «отдыхать или нет» (из-за больших расходов), однако если принято такое решение, то величина расходов на отдых (интенсивность участия) прямо зависит от количества детей.

Хекман предложил разделить модель на две составляющие: модель бинарного выбора для участия и линейную модель для интенсивности участия, и факторы этих двух моделей, вообще говоря, могут быть разными. Таким образом, в модели Хекмана имеются две латентные переменные, удовлетворяющие следующим моделям:

$y^{*}=x^{T}b+\varepsilon$ ,

$g^{*}=z^{T}c+u$ .

Случайные ошибки моделей предполагаются нормально распределенными. Вторая латентная переменная определяет выбор «участвовать — не участвовать» в рамках стандартной модели бинарного выбора (например, пробит-модели). Первая модель — это модель интенсивности участия при условии выбора «участвовать». Если выбирается «не участвовать», то $y$ не наблюдается (равна нулю).

$g={\begin{cases}1,g^{*}>0\\0,g^{*}\leqslant 0\end{cases}}$

$y={\begin{cases}y^{*},g=1\\0,g=0\end{cases}}$

Такую модель называют тобит II (соответственно исходная тобит-модель называется тобит I), иногда по аналогии — хекит (модель Хекмана). В англоязычной литературе также встречается название sample selection model.

Рассмотрим математическое ожидание наблюдаемой зависимой переменной (при условии $g=1$ ):

$E(y|g=1)=x^{T}b+E(\varepsilon |g=1)=x^{T}b+E(\varepsilon |u>-z^{T}b)$ .

Предполагается, что случайные ошибки моделей латентных переменных коррелированы и связаны соотношением

$\varepsilon =\sigma _{\varepsilon u}u+\nu$ ;

следовательно,

$E(y|g=1)=x^{T}b+\sigma _{\varepsilon u}E(\varepsilon |u>-z^{T}b)=x^{T}b+\sigma _{\varepsilon u}{\frac {\phi (z^{T}b)}{\Phi (z^{T}b)}}=x^{T}b+\sigma _{\varepsilon u}\lambda (z^{T}b)$ ,

где $\lambda (z^{T}b)$ — так называемая лямбда Хекмана.

Оценка модели Хекмана производится также методом максимального правдоподобия, однако в связи с нестандартностью данной задачи часто применяют упрощенную двухшаговую процедуру оценивания, предложенную Хекманом. На первом шаге оценивается модель бинарного выбора и определяются ее параметры, на основе которых можно определить для каждого наблюдения лямбду Хекмана. На втором шаге обычным МНК оценивается регрессия:

$y_{t}=x_{t}^{T}b+\sigma _{\varepsilon u}\lambda _{t}+\eta _{t}$ .