Применение методов глубокого обучения для распознавания эмоционального состояния человека на видеоизображении

  • Алексей Алексеевич Москвин МГУ ВМК
Ключевые слова: Искусственные нейронные сети, глубокое обучение, распознавание эмоций, видеоизображение, речевой сигнал.

Аннотация

В данной работе с помощью применения глубоких нейросетей разработана и программно реализована модель, позволяющая определять в режиме реального времени при ограниченных вычислительных ресурсах эмоциональное состояние человека по видеопоследовательности, в которой присутствует как речевой сигнал, относящийся к источнику, для которого нужно определить состояние, так и его лицо анфас. Визуальная информация представляется с помощью 16 последовательных кадров размером 96x96 пикселей, а голосовая - с помощью 140 характерных признаков для последовательности из 37 окон. На основе экспериментальных исследований разработана архитектура модели с использованием сверточных и рекуррентных нейросетей. Для 7 классов, отвечающих различным эмоциональным состояниям - нейтральное состояние, злость, грусть,испуг,радость,разочарованиеиудивление-полученаэффективностьраспознавания,равная 59%. Проведенные исследования показали, что использование аудиоинформации совместно с визуальной позволяет увеличить точность распознавания на 12%. Созданная система является динамической в плане выбора параметров, сужения или расширения количества классов, а также возможности легкого добавления, аккумулирования и использования информации из других внешних устройств для дальнейшего развития и повышения точностиклассификации.

Опубликован
2019-06-27
Раздел
Интеллектуальный анализ данных