Конструирование признаков

Конструирование признаков — процесс использования предметной области для определения признаков, используемых для машинного обучения. Конструирование признаков является неформальной областью, но считается важной составляющей машинного обучения; как отмечал Эндрю Ын, «прикладное машинное обучение — в основном это конструирование признаков».

Признак может быть строго существенен (имеет информацию, которая не существует в других признаках), существенен, малосущественен (содержит информацию, которая может содержаться в других признаках) или несущественен^[1]. Важно создать много признаков, даже если некоторые из них будут несущественны, затем может быть использован отбор признаков для предотвращения переобучения^[2].

Взрыв признаков может быть вызван путём комбинации признаков или шаблонов признаков, что ведёт к быстрому росту общего числа признаков.

Шаблоны признаков — внедрение шаблонов признаков вместо кодирования новых признаков

Комбинации признаков — комбинации, которые не могут быть представлены в виде линейной комбинации Существует несколько решений для останова взрыва признаков, такие как регуляризация, ядерный метод, отбор признаков^[3].

Автоматическое конструирование признаков

Необходимости трудоёмкого ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.

В 2015 году исследователи Массачусетского технологического института представили алгоритм «Deep Feature Synthesis» (глубокий синтез признаков, опубликован как открытая библиотека Featuretools) и продемонстрировали его эффективность: алгоритм переиграл 615 из 906 команд людей^[4]^[5]. Эту работу продолжили другие исследователи, включая OneBM компании IBM^[6] и ExploreKit компании Berkeley^[7]. Исследователи из IBM утверждают, что автоматизация конструирования признаков «помогает сократить время исследования данных, позволяя экспериментировать на них методом проб и ошибок за короткое время. С другой стороны, это даёт возможность, не будучи экспертом, то есть, не будучи знакомым с методами анализа данных, быстро выбрать значение из данных с небольшими усилиями, временными и денежными затратами.»

Появились коммерческие продукты от новых компаний, фокусирующихся на машинном обучении, такие как H20.ai^[8] и Feature Labs^[9].

См. также

Ковариата
Хеш-трюк^[англ.]
Ядерный метод
Список наборов данных для изучения машинного обучения^[англ.]

Примечания

↑ Feature Engineering (неопр.) (22 апреля 2010). Дата обращения: 12 ноября 2015. Архивировано 6 сентября 2015 года.
↑ Feature engineering and selection (неопр.). Alexandre Bouchard-Côté. Дата обращения: 12 ноября 2015. Архивировано 14 марта 2016 года.
↑ Feature engineering in Machine Learning (неопр.). Zdenek Zabokrtsky. Дата обращения: 12 ноября 2015. Архивировано из оригинала 4 марта 2016 года.
↑ Automating big-data analysis (неопр.). Дата обращения: 30 октября 2018. Архивировано 14 сентября 2019 года.
↑ Deep Feature Synthesis: Towards Automating Data Science Endeavors (неопр.). Дата обращения: 30 октября 2018. Архивировано 18 августа 2019 года.
↑ One button machine for automating feature engineering in relational databases (неопр.). Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.
↑ ExploreKit: Automatic Feature Generation and Selection (неопр.). Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.
↑ H2O.AI snares $40M Series C investment led by Wells Fargo and Nvidia (неопр.). Дата обращения: 30 октября 2018. Архивировано 1 ноября 2018 года.
↑ Feature Labs launches out of MIT to accelerate the development of machine learning algorithms (неопр.). Дата обращения: 30 октября 2018. Архивировано 1 декабря 2018 года.

[1] Feature Engineering (неопр.) (22 апреля 2010). Дата обращения: 12 ноября 2015. Архивировано 6 сентября 2015 года.

[2] Feature engineering and selection (неопр.). Alexandre Bouchard-Côté. Дата обращения: 12 ноября 2015. Архивировано 14 марта 2016 года.

[3] Feature engineering in Machine Learning (неопр.). Zdenek Zabokrtsky. Дата обращения: 12 ноября 2015. Архивировано из оригинала 4 марта 2016 года.

[4] Automating big-data analysis (неопр.). Дата обращения: 30 октября 2018. Архивировано 14 сентября 2019 года.

[5] Deep Feature Synthesis: Towards Automating Data Science Endeavors (неопр.). Дата обращения: 30 октября 2018. Архивировано 18 августа 2019 года.

[6] One button machine for automating feature engineering in relational databases (неопр.). Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.

[7] ExploreKit: Automatic Feature Generation and Selection (неопр.). Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.

[8] H2O.AI snares $40M Series C investment led by Wells Fargo and Nvidia (неопр.). Дата обращения: 30 октября 2018. Архивировано 1 ноября 2018 года.

[9] Feature Labs launches out of MIT to accelerate the development of machine learning algorithms (неопр.). Дата обращения: 30 октября 2018. Архивировано 1 декабря 2018 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Конструирование признаков

Автоматическое конструирование признаков

См. также

Примечания

Похожие исследовательские статьи