Теория распознава́ния о́бразов — раздел информатики и смежных дисциплин, развивающий основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу.
Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста.
Перцептрон является одной из первых моделей искусственной нейронной сети. Несмотря на то, что модель предложена Фрэнком Розенблаттом в 1957 году, о её возможностях и ограничениях до сегодняшнего дня не всё известно. В 1969 году Марвин Минский и Сеймур Паперт посвятили критике перцептрона целую книгу, которая показала некоторые принципиальные ограничения одной из разновидности перцептронов.
Поиск изображений по содержанию — раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание, в большом наборе цифровых изображений.
В компьютерном зрении, сегментация — это процесс разделения цифрового изображения на несколько сегментов. Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать. Сегментация изображений обычно используется для того, чтобы выделить объекты и границы на изображениях. Более точно, сегментация изображений — это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.
Google Images — специальный сервис Google для поиска картинок в Интернете. Googlebot-Image, поисковый робот, сканирующий страницы для индекса картинок, производит поиск изображений различных форматов.
Свёрточная нейронная сеть — специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения. Использует некоторые особенности зрительной коры, в которой были открыты так называемые простые клетки, реагирующие на прямые линии под разными углами, и сложные клетки, реакция которых связана с активацией определённого набора простых клеток. Таким образом, идея свёрточных нейронных сетей заключается в чередовании свёрточных слоёв и субдискретизирующих слоёв. Структура сети — однонаправленная, принципиально многослойная. Для обучения используются стандартные методы, чаще всего метод обратного распространения ошибки. Функция активации нейронов — любая, по выбору исследователя.
Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи. Многие методы глубокого обучения были известны ещё в 1980-е, но результаты не впечатляли, пока продвижения в теории искусственных нейронных сетей и вычислительные мощности середины 2000-х годов не позволили создавать сложные технологические архитектуры нейронных сетей, обладающие достаточной производительностью и позволяющие решать широкий спектр задач, не поддававшихся эффективному решению ранее, например, в компьютерном зрении, машинном переводе, распознавании речи, причём качество решения во многих случаях теперь сопоставимо, а в некоторых превосходит эффективность человека.
Валерий Васильевич Старовойтов — белорусский учёный, специалист в области информатики, технической кибернетики и обработки изображений. Лауреат премии Ленинского комсомола Белорусской ССР (1990), Государственной премии Беларуси (2002). Доктор технических наук, профессор, главный научный сотрудник Объединённого института проблем информатики Национальной академии наук Беларуси.
OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом.
Аутентификация по радужной оболочке глаза — одна из биометрических технологий, используемая для проверки подлинности личности.
База данных MNIST — объёмная база данных образцов рукописного написания цифр. База данных является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибрации и сопоставления методов распознавания изображений с помощью машинного обучения в первую очередь на основе нейронных сетей. Данные состоят из заранее подготовленных примеров изображений, на основе которых проводится обучение и тестирование систем. База данных была создана после переработки оригинального набора чёрно-белых образцов размером 20x20 пикселей NIST. Создатели базы данных NIST, в свою очередь, использовали набор образцов из Бюро переписи населения США, к которому были добавлены ещё тестовые образцы, написанные студентами американских университетов. Образцы из набора NIST были нормализированы, прошли сглаживание и приведены к серому полутоновому изображению размером 28x28 пикселей.
База данных Caltech 101 — объёмная база данных изображений, предназначенная для отработки и тестирования методов распознавания образов и машинного зрения. Этот набор данных создали в сентябре 2003 года в Калифорнийском технологическом институте Фэй-фэй Ли, Марк Аурелио Ранцато и Петро Перона. В базу данных входит 9146 изображений, распределённые между 101 категориями — лица, часы, муравьи, пианино и прочие. К каждому изображению прилагается аннотация, а также скрипт библиотеки MATLAB для просмотра.
Длинная цепь элементов краткосрочной памяти — разновидность архитектуры рекуррентных нейронных сетей, предложенная в 1997 году Зеппом Хохрайтером и Юргеном Шмидхубером. Как и большинство рекуррентных нейронных сетей, LSTM-сеть является универсальной в том смысле, что при достаточном числе элементов сети она может выполнить любое вычисление, на которое способен обычный компьютер, для чего необходима соответствующая матрица весов, которая может рассматриваться как программа. В отличие от традиционных рекуррентных нейронных сетей, LSTM-сеть хорошо приспособлена к обучению на задачах классификации, обработки и прогнозирования временных рядов в случаях, когда важные события разделены временными лагами с неопределённой продолжительностью и границами. Относительная невосприимчивость к длительности временных разрывов даёт LSTM преимущество по отношению к альтернативным рекуррентным нейронным сетям, скрытым марковским моделям и другим методам обучения для последовательностей в различных сферах применения. Из множества достижений LSTM-сетей можно выделить наилучшие результаты в распознавании несегментированного слитного рукописного текста, и победу в 2009 году на соревнованиях по распознаванию рукописного текста (ICDAR). LSTM-сети также используются в задачах распознавания речи, например LSTM-сеть была основным компонентом сети, которая в 2013 году достигла рекордного порога ошибки в 17,7 % в задаче распознавания фонем на классическом корпусе естественной речи TIMIT. По состоянию на 2016 год ведущие технологические компании, включая Google, Apple, Microsoft и Baidu, используют LSTM-сети в качестве фундаментального компонента новых продуктов.
Caffe — среда для глубинного обучения, разработанная Яньцинем Цзя в процессе подготовки своей диссертации в университете Беркли. Caffe является открытым программным обеспечением, распространяемым под лицензией BSD license. Написано на языке C++, и поддерживает интерфейс на языке Python.
Google Brain — это исследовательский проект Google по изучению искусственного интеллекта на основе глубокого обучения. В нём сочетаются открытые исследования в области машинного обучения с разработкой систем и вычислительными мощностями в масштабах Google.
Бустинг — ансамблевый метаалгоритм машинного обучения, применяется главным образом для уменьшения смещения, а также дисперсии в обучении с учителем. Также определяется как семейство алгоритмов машинного обучения, преобразующих слабые обучающие алгоритмы в сильные.
Масштабно-инвариантная трансформация признаков является алгоритмом выявления признаков в компьютерном зрении для выявления и описания локальных признаков в изображениях. Алгоритм был запатентован в Канаде университетом Британской Колумбии и опубликован Дэвидом Лоу в 1999. Приложения включают распознавание объектов, роботизированное составление карты и роботизированную навигацию, сшивку изображений, трёхмерное моделирование, распознавание жестов, трекинг, идентификацию диких животных и позиционный трекинг.
Автоматическая аннотация изображения — процесс, с помощью которого компьютерная система автоматически назначает метаданные в виде титров или ключевых слов для цифрового изображения. Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска изображений из базы данных, представляющих интерес.
Аутентификация по термограмме лица — это процесс доказательства и проверки подлинности заявленного пользователем имени, через предъявление пользователем своего биометрического образа и путём преобразования этого образа в соответствии с заранее определённым протоколом аутентификации.