t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез, основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
U-критерий Манна — Уитни — статистический критерий, используемый для оценки различий между двумя независимыми выборками по уровню какого-либо признака, измеренного количественно. Позволяет выявлять различия в значении параметра между малыми выборками.

Дерево принятия решений — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.
Логистическая регрессия или логит-модель — статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события.
Обучение на примерах — вид обучения, при котором интеллектуальной системе предъявляется набор положительных и отрицательных примеров, связанных с какой-либо заранее неизвестной закономерностью. В интеллектуальных системах вырабатываются решающие правила, с помощью которых происходит разделение множества примеров на положительные и отрицательные. Качество разделения, как правило, проверяется экзаменационной выборкой примеров.
Метод случайного леса — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании ансамбля решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана и метод случайных подпространств, предложенный Тин Кам Хо. Алгоритм применяется для задач классификации, регрессии и кластеризации. Основная идея заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим.
Расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния.

Метод
ближайших соседей — метрический алгоритм для автоматической классификации объектов или регрессии.
Точный тест Фишера — тест статистической значимости, используемый в анализе таблиц сопряжённости для выборок маленьких размеров. Относится к точным тестам значимости, поскольку не использует приближения большой выборки.
Бутстрэп в статистике — практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки. Позволяет просто и быстро оценивать самые разные статистики для сложных моделей.
Линейный классификатор — способ решения задач классификации, когда решение принимается на основании линейного оператора над входными данными. Класс задач, которые можно решать с помощью линейных классификаторов, обладают, соответственно, свойством линейной сепарабельности.

В непараметрической статистике существует метод для робастного линейного сглаживания множества точек, в котором выбирается медиана наклонов всех прямых, проходящих через пары точек выборки на плоскости. Метод называется оценочной функцией Тейла — Сена, оценочной функцией Сена коэффициента наклона, выбором наклона, методом одной медианы, методом Кендалла робастного приближения прямой и робастной прямой Кендалла — Тейла. Метод назван именами Анри Тейла и Пранаба К. Сена, опубликовавшими статьи об этом методе в 1950 и 1968 соответственно, а также именем Мориса Кендалла.
Непараметрическая статистика — раздел статистики, который не основан исключительно на параметризованных семействах вероятностных распределений. Непараметрическая статистика включает в себя описательную статистику и статистический вывод.
Статистическая теория обучения — это модель для машинного обучения на основе статистики и функционального анализа. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи и биоинформатика.

Компромисс отклонение-дисперсия в статистике и в машинном обучении — это свойство набора моделей предсказания, когда модели с меньшим отклонением от имеющихся данных имеют более высокую дисперсию на новых данных, и наоборот. Компромисс отклонение-дисперсия — конфликт при попытке одновременно минимизировать эти два источника ошибки, которые мешают алгоритмам обучения с учителем делать обобщение за пределами тренировочного набора.
- Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение).
- Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. При высокой дисперсии алгоритм может как-то трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение).
Ансамблевое обучение — техника машинного обучения, использующая несколько обученных алгоритмов с целью получения лучшей предсказательной эффективности, чем можно было бы получить от каждого алгоритма по отдельности. В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль моделей в машинном обучении состоит из конкретного конечного множества альтернативных моделей, но обычно позволяет существовать гораздо более гибким структурам.
Обучение дерева решений использует дерево решений, чтобы перейти от наблюдений над объектами к заключениям о целевых значениях объектов. Это обучение является одним из подходов моделирования предсказаний, используемых в статистике, интеллектуальном анализе данных и машинном обучении. Модели деревьев, в которых целевая переменная может принимать дискретный набор значений, называются деревьями классификации. В этих структурах деревьев листья представляют метки классов, а ветки представляют конъюнкции признаков, которые ведут в эти метки классов. Деревья решений, в которых целевая переменная может принимать непрерывные значения называются деревьями регрессии.
Множественная выборка сглаживания или мультисемплинг — одна из наиболее простых механик сглаживания, пришедшая на смену избыточной выборке сглаживания и дающая схожий эффект при меньшем потреблении ресурсов.

В статистике модель медиации стремится идентифицировать и объяснить механизм, лежащий в основе наблюдаемой связи между независимой переменной и зависимой переменной, путем включения третьей гипотетической переменной, известной как переменная-медиатор, или промежуточная переменная. Вместо прямой причинно-следственной связи между независимой и зависимой переменной модель медиации предполагает, что независимая переменная влияет на ненаблюдаемую переменную-медиатор, которая, в свою очередь, влияет на зависимую переменную. Таким образом, переменная-медиатор служит для выяснения характера взаимосвязи между независимыми и зависимыми переменными.
В машинном обучении, ранняя остановка — форма регуляризации, используемая для избежания переобучения при обучении модели с помощью итеративного метода, например, такого, как градиентный спуск. При использовании подобных методов модель обновляется после каждой итерации для того, чтобы лучше соответствовать обучающим данным и до определенного момента это улучшает производительность модели также и на данных, не входящих в обучающий набор, но после этого момента улучшение соответствия модели обучающим данным происходит за счёт увеличения ошибки обобщения. Правила ранней остановки являются руководством по определению того, как много итераций может пройти, перед переобучением модели и они используются во множестве методов машинного обучения.