Искусственный интеллект ускорит распознавание выражений лиц на видео в 30 раз

Ученые из НИТУ МИСИС, Sber AI Lab и НИУ ВШЭ разработали инновационный подход к обработке видео на основе искусственного интеллекта, который значительно ускоряет процесс распознавания лиц. Эксперименты показали, что новый метод может быть до 30 раз быстрее по сравнению с классическими подходами, при этом не уступая им в точности распознавания эмоций на видео.

Одной из ключевых проблем, стоящих перед исследователями в сфере компьютерного зрения, является задача классификации видеопоследовательностей — то есть определения содержания и характеристик движущихся изображений — используя методы глубокого обучения, которые позволяют компьютерам учиться на примерах и улучшать свои навыки без прямого человеческого вмешательства. Глубокое обучение опирается на нейронные сети — сложные математические модели, вдохновленные строением мозга, которые могут выявлять закономерности в больших объемах данных.

Однако традиционные методы, которые анализируют каждый кадр видео в отдельности, подобно тому как человек мог бы рассматривать фотографии одну за другой, требуют огромных вычислительных ресурсов. Это становится неэффективным, особенно когда дело доходит до систем, работающих в режиме реального времени, например, систем видеонаблюдения или автономных транспортных средств, где скорость распознавания критична.

Исследователи из Sber AI Lab, Университета МИСИС и НИУ ВШЭ предложили новый метод обработки видео, основанный на последовательном анализе и концепции гранулярных вычислений, который до 30 раз эффективнее по времени в сравнении с классическими подходами, при этом не уступает им в точности распознавания лиц и эмоций. Исследование опубликовано в научном журнале Information Sciences (Q1).

«Наш подход является первой попыткой использовать теорию тернарных (three-way) решений для классификации видео. В частности, мы представляем новый подход, основанный на последовательном анализе входных видеоданных с различной детализацией (частотой кадров). Этот метод спроектирован так, чтобы быть очень быстрым и может быть применен к любому способу извлечения характерных признаков лиц на основе глубоких нейросетей без дополнительного обучения всей модели. Мы используем только один параметр — максимально допустимую вероятность ошибок I рода для оценки порогов классификаторов для всех уровней детализации», — поясняет соавтор исследования Андрей Савченко, заместитель директора центра искусственного интеллекта НИТУ МИСИС.

В исследовании последовательности наблюдений представлялись на различных уровнях масштаба и с разной частотой кадров. На первых этапах видео представляется в менее детализированном виде на основе объединения признаков лишь малого числа кадров. Если уже для такого представления можно принять надежное решение (видео попадает в «положительное» множество одного из классов), то процедура останавливается. В противном случае частота кадров увеличивается, и процесс последовательного анализа повторяется для более детализированного представления. При этом для каждого уровня детализации обучались специализированные классификаторы. В результате наилучшая частота кадров определяется динамически. Например, для простых видео, где выражения лиц хорошо распознаются, решение принимается практически мгновенно, а для более сложных видеоданных требуется уже обработать намного больше видеокадров.

Авторы исследования отмечают, что для оптимизации метода важно не просто собирать информацию со всех кадров видео, но и уметь правильно выстраивать последовательность принятия решений, то есть сразу отсеивать ненужную информации, чтобы оставались только необходимые для классификации данные.

Одним из предположений, использованных в предложенном подходе, является присутствие только одной эмоции во всех кадрах, поэтому сейчас на практике для применения метода приходится разбивать данные из систем видеонаблюдения на небольшие фрагменты длительностью 1-2 с. В будущих исследованиях необходимо найти достаточно надежный способ определения моментов смены эмоционального состояния, тогда получится значительно ускорить процедуру распознавания, в особенности для эмоций, длящихся десятки секунд. Кроме того, разработанный метод достаточно универсален, поэтому важно попробовать применить его для других задач видеоаналитики, прежде всего, для распознавания и идентификации лиц.

Директор Института биомедицинской инженерии Фёдор Сенатов на визионерской сессии «Прекрасное не далеко. Квантовый мир завтрашнего дня»Директор Института биомедицинской инженерии Фёдор Сенатов на визионерской сессии «Прекрасное не далеко. Квантовый мир завтрашнего дня»