Ученые из России и Китая научили нейросеть распознавать эмоции в речи так же, как это делают люди

В ЛЭТИ создали самую точную нейросеть для распознавания эмоций по голосу

Summit Art Creations/Shutterstock/FOTODOM

Ученые кафедры систем автоматизированного проектирования (САПР) СПбГЭТУ «ЛЭТИ» совместно с коллегами из Цзянсийского аграрного университета (г. Наньчан, Китай) разработали систему для анализа речевых эмоций в сложных акустических условиях. Модель продемонстрировала точность распознавания на уровне 86,17%, что на 2,5% выше, чем у ведущего на сегодня метода SeeNet. Об этом «Газете.Ru» рассказали в ЛЭТИ.

Распознавание эмоций в речи важно для интеллектуальных систем, так как позволяет понимать эмоциональное состояние пользователей и предоставлять персонализированные услуги. Эта технология применяется в дистанционном обучении, поддержке психического здоровья и службах поддержки клиентов. Однако в реальных условиях акустический шум снижает точность распознавания эмоций. Несмотря на прогресс в методах шумоподавления на основе нейросетей, задача сохранения эмоциональной информации в присутствии шума остается нерешенной и требует новых подходов.

«Мы вдохновлялись способностями человеческого мозга: слуховая система человека обладает значительной шумоустойчивостью и высокоэффективным механизмом декодирования эмоций, которые мозг надежно различает даже в сложной шумовой обстановке. На основе принципов биологических систем построена и наша нейросетевая модель SONANCE, которая системно моделирует четыре ключевых этапа обработки информации в слуховых центрах мозга и формирует сквозную биомиметическую архитектуру «шумоподавление – слияние – классификация», нацеленную на принципиальное повышение качества анализа речевых эмоций в сложной акустической среде», — рассказал доцент кафедры САПР СПбГЭТУ «ЛЭТИ» Сергей Кузьмин.

Ученые разработали модель, которая имитирует работу мозга в обработке звука. Эта система способна иерархически анализировать звуковую информацию, отделяя полезный сигнал от шума и сохраняя эмоциональную окраску речи.

В процессе создания нейросетевой модели биологические механизмы были преобразованы в три вычислительных модуля. Первый модуль отвечает за прием сигнала и шумоподавление, обеспечивая баланс между устранением помех и сохранением эмоциональных характеристик. Второй модуль анализирует семантическую информацию на уровне высказываний, а третий помогает различать схожие эмоциональные состояния.

Система SONANCE способна распознавать восемь основных эмоций в речи: отвращение, радость, страх, удивление, спокойствие, грусть, гнев и нейтральное состояние.

«В будущем мы планируем развернуть нейросетевую модель SONANCE в реальных приложениях – интеллектуальных кабинах транспортных средств, онлайн-образовании, мониторинге психического здоровья, интеллектуальных службах поддержки клиентов и других сферах, — собирать в реальных условиях разнообразные данные, непрерывно верифицировать и повышать способность модели к генерализации, с тем чтобы данная биомиметическая технология действительно вышла на практический уровень и служила более широкому кругу приложений взаимодействия человека с машиной», — рассказал доцент, и.о. декана факультета программного обеспечения (факультета сельскохозяйственного искусственного интеллекта) Цзянсийского аграрного университета, выпускник ЛЭТИ И Вэньлун.

Ранее ученые выяснили, что инфаркт может вызвать воспаление мозга и повысить риск психических нарушений.