Студенты НИТУ МИСИС и МГУ имени М.В. Ломоносова создали видеоредактор с автоматической генерацией тифлокомментариев (звукового описания) происходящего в кадре. Инструмент поможет незрячим или плоховидящим людям понимать, что происходит в фильме, не прерывая просмотра.
При разработке видеоредактора с тифлокомментариями использованы три разные state-of-the-art (флагманские) модели глубокого обучения, каждая из которых призвана решить определенную задачу. Первая анализировала аудиоряд и видеопоток для поиска тех моментов в фильме, где было бы уместно вставить озвучку происходящего. Вторая модель генерировала текстовое описание текущего кадра, а третья — озвучивала подготовленный текст.
«Главная особенность предложенного нами решения заключается в возможности проверить результат генерации и исправить недочеты прямо в браузере. На сегодняшний день даже лучшие модели могут ошибаться. Наша разработка даёт пользователю возможность корректировать результат на каждом этапе — от выделения интересных сцен до озвучки», — рассказал студент 4 курса НИТУ МИСИС Дмитрий Дин.
По словам разработчиков, им было интересно поработать с актуальной проблемой адаптации контента и интерфейсов для людей с ограниченными возможностями и создать полноценный видеоредактор в виде веб-приложения, применив на практике последние подходы в решении задач image2text, text2speech, voice detection.
В перспективе видеоредактор может быть доработан и использован в работе онлайн-кинотеатров, что позволит незрячим людям лучше представлять атмосферу фильмов. На сегодняшний день подобные сервисы создаются только для внутреннего пользования онлайн-кинотеатрами. В открытом доступе подобного программного обеспечения нет.
Разработкой занимались студенты 4 курса Университета МИСИС Дмитрий Дин, Марк Кувшинов, Дмитрий Личко, а также студентки 3 курса МГУ имени Ломоносова Полина Черникова и Анастасия Гисина. Ребята создали видеоредактор в рамках хакатона TrueTech, организованного компанией МТС, и заняли с ней первое место. Приз победителям составил 400 000 рублей.