Метод наименьших квадратов (МНК) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений, для поиска решения в случае обычных нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным.
Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая, сумма квадратов между которой и данными минимальна.
Гетероскедасти́чность — понятие, используемое в прикладной статистике, означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.
Мультиколлинеарность (multicollinearity) — в эконометрике — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.
Логистическая регрессия или логит-модель — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события.
Статистическое и эконометрическое модели́рование — исследование объектов познания на их статистических моделях; построение и изучение моделей реально существующих предметов, процессов или явлений с целью получения объяснений этих явлений, а также для предсказания явлений или показателей, интересующих исследователя.
Коэффициент детерминации — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.
Линейная регрессия — используемая в статистике регрессионная модель зависимости одной переменной от другой или нескольких других переменных с линейной функцией зависимости.
Система одновременных уравнений — совокупность эконометрических уравнений, определяющих взаимозависимость экономических переменных. Важным отличительным признаком системы «одновременных» уравнений от прочих систем уравнений является наличие одних и тех же переменных в правых и левых частях разных уравнений системы.
Планирование эксперимента — комплекс мероприятий, направленных на эффективную постановку опытов. Основная цель планирования эксперимента — достижение максимальной точности измерений при минимальном количестве проведенных опытов и сохранении статистической достоверности результатов.
Метод инструментальных переменных — метод оценки параметров регрессионных моделей, основанный на использовании дополнительных, не участвующих в модели, так называемых инструментальных переменных. Метод применяется в случае, когда факторы регрессионной модели не удовлетворяют условию экзогенности, то есть являются зависимыми со случайными ошибками. В этом случае, оценки метода наименьших квадратов являются смещенными и несостоятельными.
Экзогенность — буквально «внешнее происхождение» — свойство факторов эконометрических моделей, заключающееся в предопределённости, заданности их значений, независимости от функционирования моделируемой системы. Экзогенность противоположна эндогенности. Значения экзогенных переменных определяются вне модели, и на их основе в рамках рассматриваемой модели определяются значения эндогенных переменных.
Тест Хаусмана, называемый также тестом Ву-Хаусмана или Дарбина-Ву-Хаусмана — применяемый в эконометрике тест для сравнения моделей, оцененных разными методами, один из которых позволяет получить состоятельные оценки и при нулевой и при альтернативной гипотезе, а другой — только при нулевой гипотезе.
Нелинейная регрессия — это вид регрессионного анализа, в котором экспериментальные данные моделируются функцией, являющейся нелинейной комбинацией параметров модели и зависящей от одной и более независимых переменных. Данные аппроксимируются методом последовательных приближений.
В прикладной статистике метод наименьших полных квадратов — это вид регрессии с ошибками в переменных, техника моделирования данных с помощью метода наименьших квадратов, в которой принимаются во внимание ошибки как в зависимых, так и в независимых переменных. Метод является обобщением регрессии Деминга и ортогональной регрессии и может быть применён как к линейным, так и нелинейным моделям.
Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных, и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки, которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.
- Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
- Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение).
В статистике обобщенная линейная модель (ОЛМ) представляет собой гибкое обобщение классической линейной регрессии, которое позволяет использовать переменные реакции, имеющие модели распределения ошибок, отличные от нормального распределения. ОЛМ обобщает линейную регрессию, позволяя линейной модели быть связанной с переменной реакции через функцию, линейные модели были сформулированы Джоном Нелдером и Робертом Уэддерберном как способ объединения различных других статистических моделей, включая линейную регрессию, логистическую регрессию и регрессию Пуассона. Они предложили метод наименьших квадратов для оценки максимального правдоподобия параметров модели. Оценка максимального правдоподобия остаётся популярной и является методом по умолчанию во многих статистических вычислительных пакетах. Были разработаны и другие подходы, в том числе байесовские подходы и методы наименьших квадратов для получения стабилизированных по дисперсии ответов.