Регрессия Деминга

В статистике регрессия Деминга, названная именем У. К. Деминга, — это вид регрессии с ошибками в переменных^[англ.], которая пытается найти прямую наилучшего сглаживания для двумерного набора данных. Регрессия отличается от простой линейной регрессии^[англ.] в том, что она принимает во внимание ошибки^[англ.] в наблюдении как по оси x, так и по оси y. Регрессия является частным случаем метода наименьших полных квадратов, которая рассматривает любое число показателей и имеет более сложную структуру ошибок.

Регрессия Деминга эквивалентна оценке максимального правдоподобия на модели с ошибками в переменных^[англ.], в которой ошибки двух переменных считаются независимыми и имеют нормальное распределение, а отношение их дисперсий, δ, известно ^[1]. На практике это отношение может быть оценено из исходных данных. Однако процедура регрессии не принимает во внимание возможные ошибки в оценке отношений дисперсии.

Регрессия Деминга лишь слегка сложнее простой линейной регрессии^[англ.]. Большинство статистических пакетов, используемых в клинической химии, предоставляют регрессию Деминга.

Модель первоначально была предложена Адкоком^[2], который рассматривал случай δ = 1, а затем рассматривалась в более общем виде Куммеллем ^[3] с произвольным δ. Однако их идеи оставались большей частью незамеченными более 50 лет, пока их не возродил Купманс^[4] и позднее распространил Деминг^[5]. Книга последнего стала столь популярной в клинической химии и связанных областях, что метод в этих областях получил название регрессия Деминга^[6].

Спецификация

Предположим, что данные (y_i, x_i) являются значениями, полученными в ходе измерений "истинных" значений (y_i*, x_i*), которые лежат на регрессионной прямой:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{aligned}}

где ошибки ε и η независимы и отношение их дисперсий, известно:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

На практике дисперсии параметров $x$ и $y$ часто неизвестны, что усложняет оценку $\delta$ . Заметим, что когда метод измерения $x$ и $y$ тот же самый, эти дисперсии, скорее всего, равны, так что в этом случае $\delta =1$ .

Мы пытаемся найти прямую "наилучшего сглаживания"

y^{*}=\beta _{0}+\beta _{1}x^{*},

такую, что взвешенная сумма квадратов остатков минимальна ^[7]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

Решение

Решение может быть выражено в терминах моментов второго порядка. То есть мы сначала вычисляем следующие величины (все суммы берутся по i = 1 : n):

{\begin{aligned}&{\overline {x}}={\frac {1}{n}}\sum x_{i},\quad {\overline {y}}={\frac {1}{n}}\sum y_{i},\\&s_{xx}={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})^{2},\\&s_{xy}={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}}),\\&s_{yy}={\tfrac {1}{n}}\sum (y_{i}-{\overline {y}})^{2}.\end{aligned}}

Наконец, параметры оценки методом наименьших квадратов будут^[8]:

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

Ортогональная регрессия

В случае равенства дисперсий ошибок, т.е. в случае $\delta =1$ , регрессия Деминга становится ортогональной регрессией — она минимизирует сумму квадратов расстояний от точек выборки до регрессионной прямой^[англ.]^*. В этом случае обозначим каждую точку выборки z_j на комплексной плоскости (т.е. точка (x_j, y_j) выборки записывается как z_j = x_j + iy_j, где i — мнимая единица). Обозначим через Z сумму квадратов разностей от точек выборки до центра тяжести (также представленного в комплексных координатах). Центр тяжести — это среднее точек выборки. Тогда^[9]:

Если Z = 0, то любая прямая, проходящая через центр тяжести, является прямой наилучшего ортогонального сглаживания.
Если Z ≠ 0, прямая наилучшего ортогонального сглаживания проходит через центр тяжести и параллельна вектору из начала координат в ${\sqrt {Z}}$ .

Тригонометрическую интерпретацию прямой наилучшего ортогонального сглаживания дал Кулидж в 1913^[10].

Приложения

В случае трёх неколлинеарных точек на плоскости треугольник, образованный этими точками, имеет единственный вписанный эллипс Штейнера, который касается сторон треугольника в средних точках. Главная ось этого эллипса будет ортогональной регрессией этих трёх вершин^[11].

Примечания

↑ Linnet, 1993.
↑ Adcock, 1878.
↑ Kummell, 1879.
↑ Koopmans, 1937.
↑ Deming, 1943.
↑ Cornbleet, Gochman, 1979, с. 432–438.
↑ Fuller, 1987, с. ch.1.3.3.
↑ Glaister, 2001, с. 104-107.
↑ Minda, Phelps, 2008, с. 679–689, Theorem 2.3.
↑ Coolidge, 1913, с. 187–190.
↑ Minda, Phelps, 2008, с. 679–689, Corollary 2.4.

Литература

R. J. Adcock. A problem in least squares // The Analyst. — Annals of Mathematics, 1878. — Т. 5, вып. 2. — С. 53–54. — doi:10.2307/2635758. — JSTOR 2635758.
J. L. Coolidge. Two geometrical applications of the mathematics of least squares // The American Mathematical Monthly. — 1913. — Т. 20, вып. 6. — С. 187–190. — doi:10.2307/2973072.
P.J. Cornbleet, N. Gochman. Incorrect Least–Squares Regression Coefficients // Clin. Chem.. — 1979. — Т. 25, вып. 3. — С. 432–438. — PMID 262186.
W. E. Deming. Statistical adjustment of data. — Wiley, NY (Dover Publications edition, 1985), 1943. — ISBN 0-486-64685-8.
Wayne A. Fuller. Measurement error models. — John Wiley & Sons, Inc, 1987. — ISBN 0-471-86187-1.
P. Glaister. Least squares revisited // The Mathematical Gazette. — 2001. — Вып. 85 March. — С. 104-107.
T. C. Koopmans. Linear regression analysis of economic time series. — DeErven F. Bohn, Haarlem, Netherlands, 1937.
C. H. Kummell. Reduction of observation equations which contain more than one observed quantity // The Analyst. — Annals of Mathematics, 1879. — Т. 6, вып. 4. — С. 97–105. — doi:10.2307/2635646. — JSTOR 2635646.
K. Linnet. Evaluation of regression procedures for method comparison studies // Clinical Chemistry. — 1993. — Т. 39, вып. 3. — С. 424–432. — PMID 8448852.
D. Minda, S. Phelps. Triangles, ellipses, and cubic polynomials // American Mathematical Monthly. — 2008. — Т. 115, вып. 8. — С. 679–689.

[_4ff572a6be0b29f5-1] Linnet, 1993.

[_f0fef5b004b5769a-2] Adcock, 1878.

[_2efe7f5e8233b41d-3] Kummell, 1879.

[_d2e6d77b0aa8f121-4] Koopmans, 1937.

[_e6e6d2fa0b36b3f2-5] Deming, 1943.

[_fb8f114b6ba30f23-6] Cornbleet, Gochman, 1979, с. 432–438.

[_249c7ae98781b144-7] Fuller, 1987, с. ch.1.3.3.

[_1842661923c287b1-8] Glaister, 2001, с. 104-107.

[_79fc54a63194ca43-9] Minda, Phelps, 2008, с. 679–689, Theorem 2.3.

[_3dcccce40b3e8156-10] Coolidge, 1913, с. 187–190.

[_92495f2774f7ffcb-11] Minda, Phelps, 2008, с. 679–689, Corollary 2.4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]