Оптический поток

Перейти к навигацииПерейти к поиску

Оптический поток — в узком смысле это метод представления информации о движении суть которого заключается в отображении (на визуальном графике или в виде математической модели) видимого движения объектов, поверхностей или краев сцены, получаемого в результате перемещения наблюдателя (глаз или камеры) относительно сцены. В более общем смысле под термином "оптический поток" может пониматься полная информация о движении объектов сцены относительно наблюдателя представленная в любом виде.

Алгоритмы, основанные на оптическом потоке, такие как регистрация движения, сегментация объектов, кодирование движений и подсчет диспаритета в стерео, используют это движение объектов, поверхностей и краев.

Оценка оптического потока

Последовательности упорядоченных изображений позволяют оценивать движение либо как мгновенную скорость изображения, либо как дискретное смещение[1].Fleet и Weiss составили учебный курс по градиентному методу оценки оптического потока[2].

Анализ методов вычисления оптического потока проведен в работе John L. Barron, David J. Fleet и Steven Beauchemin. Они рассматривают методы как с точки зрения точности, так и с точки зрения плотности получаемого векторного поля.[3]

Методы, основанные на оптическом потоке, вычисляют движение между двумя кадрами, взятыми в момент времени и , в каждом пикселе. Эти методы называются дифференциальными, так как они основаны на приближении сигнала отрезком ряда Тейлора; таким образом, они используют частные производные по времени и пространственным координатам.

В случае размерности 2D+t (случаи большей размерности аналогичны) пиксель в позиции с интенсивностью за один кадр будет перемещен на , и , и можно записать следующее уравнение:

Считая, что перемещение мало, и используя ряд Тейлора, получаем:

.

Из этих равенств следует:

или

отсюда получается, что

где

— компоненты скорости оптического потока в ,
, , — производные изображения в в соответствующих направлениях.

Таким образом:

или

Полученное уравнение содержит две неизвестных и не может быть однозначно разрешено. Данное обстоятельство известно как проблема апертуры. Задачу решает наложение дополнительных ограничений — регуляризация.

Методы определения оптического потока

  • Фазовая корреляция — инверсия нормализованного перекрестного спектра.
  • Блочные методы — минимизация суммы квадратов или суммы модулей разностей
  • Дифференциальные методы оценки оптического потока, основанные на частных производных сигнала:
    • Алгоритм Лукаса — Канаде — рассматриваются части изображения и аффинная модель движения
    • Horn–Schunck — минимизация функционала, описывающего отклонение от предположения о постоянстве яркости и гладкость получаемого векторного поля.
    • Buxton–Buxton — основан на модели движения границ объектов в последовательности изображений[4]
    • Общие вариационные методы — модификации метода Horn-Schunck, использующие другие ограничения на данные и другие ограничения на гладкость.
  • Дискретные методы оптимизации — поисковое пространство квантуется, затем каждому пикселю изображения ставится в соответствие метка таким образом, чтобы расстояние между последовательными кадрами было минимальным.[5] Оптимальное решение часто ищется с помощью алгоритмов нахождения минимального разреза и максимального потока в графе, линейного программирования или belief propagation.

Использование оптического потока

Исследования оптического потока широко ведутся в областях сжатия видео и анализа движений. Алгоритмы оптического потока не только определяют поле потока, но и используют оптический поток при анализе трехмерной сущности и структуры сцены, а также 3D-движения объектов и наблюдателя относительно сцены.

Оптический поток используется в робототехнике при распознавании объектов, слежении за объектами, определении движения и при навигации робота.

Кроме того, оптический поток используется для изучения структуры объектов. Поскольку определение движения и создание карт структуры окружающей среды являются неотъемлемой частью животного (человеческого) зрения, то реализация этой врожденной способности средствами компьютера является неотъемлемой частью компьютерного зрения.

Представьте видеоролик из пяти кадров, в котором шар движется из нижнего левого угла в правый верхний. Методы нахождения движения могут определить, что на двумерной плоскости шар движется вверх и вправо и векторы, описывающие это движение, могут быть получены из последовательности кадров. При сжатии видео это правильное описание последовательности кадров. Однако в области компьютерного зрения без дополнительной информации нельзя сказать, движется ли шар вправо, а наблюдатель стоит на месте, или шар покоится, а наблюдатель движется влево.

Модели оптического потока в психологии

Джеймс Гибсон рассматривал модели оптического потока (оптические инварианты) в качестве стимула высшего порядка. Модели оптического потока в теории Гибсона представляют собой сложные конфигурации оптической информации, регистрируемой зрительными рецепторами. В оптическом потоке представлена вся необходимая для нашего восприятия информация об окружающем мире, происходящих в нем событиях, в том числе информация о движении (включая параллакс движения и оптический градиент расширения). Таким образом, оптический поток исключает из психологии восприятия необходимость использовать какую-либо еще внешнюю информацию[6].

Идея использования оптического потока для объяснения процесса формирования перцептивного образа пришла к Гибсону во время Второй мировой войны в ходе работы по созданию специальных тренажеров и учебного фильма для подготовки пилотов американских ВВС.

См. также

Примечания

  1. S. S. Beauchemin , J. L. Barron 1995 вычисление оптического потока
  2. David J. Fleet and Yair Weiss (2006)оценка оптического потока. Архивная копия от 8 июня 2011 на Wayback Machine in Paragios et al.. Handbook of Mathematical Models in Computer Vision.
  3. John L. Barron, David J. Fleet, and Steven Beauchemin 1994.Performance of optical flow techniques Архивная копия от 30 июля 2009 на Wayback Machine
  4. Glyn W. Humphreys and Vicki Bruce 1989 Visual cognition
  5. B. Glocker, N. Komodakis, G. Tziritas, N. Navab & N. Paragios 2008 Dense Image Registration through MRFs and Efficient Linear Programming Архивировано 19 июля 2011 года.
  6. K. N. OGLE. The Perception of the Visual World. James J. Gibson; Leonard Carmichael, Ed. Boston: Houghton Mifflin, 1950. 235 pp. $4.00 // Science. — 1951-05-04. — Т. 113, вып. 2940. — С. 535–535. — ISSN 1095-9203 0036-8075, 1095-9203. — doi:10.1126/science.113.2940.535.

Ссылки