Регрессия Деминга
В статистике регрессия Деминга, названная именем У. К. Деминга, — это вид регрессии с ошибками в переменных[англ.], которая пытается найти прямую наилучшего сглаживания для двумерного набора данных. Регрессия отличается от простой линейной регрессии[англ.] в том, что она принимает во внимание ошибки[англ.] в наблюдении как по оси x, так и по оси y. Регрессия является частным случаем метода наименьших полных квадратов, которая рассматривает любое число показателей и имеет более сложную структуру ошибок.
Регрессия Деминга эквивалентна оценке максимального правдоподобия на модели с ошибками в переменных[англ.], в которой ошибки двух переменных считаются независимыми и имеют нормальное распределение, а отношение их дисперсий, δ, известно [1]. На практике это отношение может быть оценено из исходных данных. Однако процедура регрессии не принимает во внимание возможные ошибки в оценке отношений дисперсии.
Регрессия Деминга лишь слегка сложнее простой линейной регрессии[англ.]. Большинство статистических пакетов, используемых в клинической химии, предоставляют регрессию Деминга.
Модель первоначально была предложена Адкоком[2], который рассматривал случай δ = 1, а затем рассматривалась в более общем виде Куммеллем [3] с произвольным δ. Однако их идеи оставались большей частью незамеченными более 50 лет, пока их не возродил Купманс[4] и позднее распространил Деминг[5]. Книга последнего стала столь популярной в клинической химии и связанных областях, что метод в этих областях получил название регрессия Деминга[6].
Спецификация
Предположим, что данные (yi, xi) являются значениями, полученными в ходе измерений "истинных" значений (yi*, xi*), которые лежат на регрессионной прямой:
где ошибки ε и η независимы и отношение их дисперсий, известно:
На практике дисперсии параметров и часто неизвестны, что усложняет оценку . Заметим, что когда метод измерения и тот же самый, эти дисперсии, скорее всего, равны, так что в этом случае .
Мы пытаемся найти прямую "наилучшего сглаживания"
такую, что взвешенная сумма квадратов остатков минимальна [7]
Решение
Решение может быть выражено в терминах моментов второго порядка. То есть мы сначала вычисляем следующие величины (все суммы берутся по i = 1 : n):
Наконец, параметры оценки методом наименьших квадратов будут[8]:
Ортогональная регрессия
В случае равенства дисперсий ошибок, т.е. в случае , регрессия Деминга становится ортогональной регрессией — она минимизирует сумму квадратов расстояний от точек выборки до регрессионной прямой[англ.]*. В этом случае обозначим каждую точку выборки zj на комплексной плоскости (т.е. точка (xj, yj) выборки записывается как zj = xj + iyj, где i — мнимая единица). Обозначим через Z сумму квадратов разностей от точек выборки до центра тяжести (также представленного в комплексных координатах). Центр тяжести — это среднее точек выборки. Тогда[9]:
- Если Z = 0, то любая прямая, проходящая через центр тяжести, является прямой наилучшего ортогонального сглаживания.
- Если Z ≠ 0, прямая наилучшего ортогонального сглаживания проходит через центр тяжести и параллельна вектору из начала координат в .
Тригонометрическую интерпретацию прямой наилучшего ортогонального сглаживания дал Кулидж в 1913[10].
Приложения
В случае трёх неколлинеарных точек на плоскости треугольник, образованный этими точками, имеет единственный вписанный эллипс Штейнера, который касается сторон треугольника в средних точках. Главная ось этого эллипса будет ортогональной регрессией этих трёх вершин[11].
Примечания
- ↑ Linnet, 1993.
- ↑ Adcock, 1878.
- ↑ Kummell, 1879.
- ↑ Koopmans, 1937.
- ↑ Deming, 1943.
- ↑ Cornbleet, Gochman, 1979, с. 432–438.
- ↑ Fuller, 1987, с. ch.1.3.3.
- ↑ Glaister, 2001, с. 104-107.
- ↑ Minda, Phelps, 2008, с. 679–689, Theorem 2.3.
- ↑ Coolidge, 1913, с. 187–190.
- ↑ Minda, Phelps, 2008, с. 679–689, Corollary 2.4.
Литература
- R. J. Adcock. A problem in least squares // The Analyst. — Annals of Mathematics, 1878. — Т. 5, вып. 2. — С. 53–54. — doi:10.2307/2635758. — .
- J. L. Coolidge. Two geometrical applications of the mathematics of least squares // The American Mathematical Monthly. — 1913. — Т. 20, вып. 6. — С. 187–190. — doi:10.2307/2973072.
- P.J. Cornbleet, N. Gochman. Incorrect Least–Squares Regression Coefficients // Clin. Chem.. — 1979. — Т. 25, вып. 3. — С. 432–438. — PMID 262186.
- W. E. Deming. Statistical adjustment of data. — Wiley, NY (Dover Publications edition, 1985), 1943. — ISBN 0-486-64685-8.
- Wayne A. Fuller. Measurement error models. — John Wiley & Sons, Inc, 1987. — ISBN 0-471-86187-1.
- P. Glaister. Least squares revisited // The Mathematical Gazette. — 2001. — Вып. 85 March. — С. 104-107.
- T. C. Koopmans. Linear regression analysis of economic time series. — DeErven F. Bohn, Haarlem, Netherlands, 1937.
- C. H. Kummell. Reduction of observation equations which contain more than one observed quantity // The Analyst. — Annals of Mathematics, 1879. — Т. 6, вып. 4. — С. 97–105. — doi:10.2307/2635646. — .
- K. Linnet. Evaluation of regression procedures for method comparison studies // Clinical Chemistry. — 1993. — Т. 39, вып. 3. — С. 424–432. — PMID 8448852.
- D. Minda, S. Phelps. Triangles, ellipses, and cubic polynomials // American Mathematical Monthly. — 2008. — Т. 115, вып. 8. — С. 679–689.