На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия
Ok
Подписывайтесь на Газету.Ru в Telegram Публикуем там только самое важное и интересное!
Все новости
Новые материалы +

Усовершенствованный голосовой помощник сможет на равных вести диалог с человеком

Российские ученые работают над новой паралингвистической системой определения адресата сообщения для голосовых помощников, которая сможет начинать взаимодействовать с людьми, даже если к ней не обратились по имени. Предложенный метод основан на том, что система самостоятельно определяет, когда человек обращается к голосовому помощнику, а когда к другому собеседнику. Кроме того, ответы компьютера станут приближенными к человеческой речи за счет более естественного моделирования диалога. Это может позволить изменить отношение человека к помощнику, уровень «интеллекта» которого, как показали эксперименты, воспринимается на уровне ребенка. Статья опубликована в журнале Sensors. Исследования поддержаны грантом Российского научного фонда (РНФ).

«Что касается диалогов «человек-машина», люди часто имеют некоторый негативный опыт в своей повседневной жизни. Поэтому они стараются приспосабливаться к ограничениям технических систем. Это приводит к более медленной и разборчивой речи с ограниченным словарным запасом», — утверждает Алексей Карпов, руководитель проекта по гранту РНФ, доктор технических наук, главный научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПИИРАН.

Голосовые помощники, или cистемы речевого общения (Spoken Dialogue Systems, SDS), появились пару десятилетий назад и уже стали частью нашей повседневной жизни. В последние годы был достигнут значительный прогресс в области SDS. Виртуальные голосовые помощники, например Siri от Apple, Assistant от Google, Cortana от Microsoft, Alexa от Amazon или Алиса от Яндекса, – типичные примеры современных SDS. За рубежом системы в виде «умных» колонок очень распространены и популярны, так как зачастую они встраиваются в разнообразные устройства и позволяют бесконтактно голосом управлять практической любой бытовой техникой, например кофеваркой, кондиционером или системой освещения. В России же такая сфера пока только зарождается, и SDS используются скорее как игрушки или только для поиска информации в Интернете.

До сих пор остается ряд сложностей во взаимодействии человека и голосового помощника. Такие системы не всегда правильно понимают, когда люди хотят воспользоваться виртуальным помощником, а когда адресуют вопрос другому собеседнику. Эта проблема часто возникает при разговорах между несколькими людьми и голосовым помощником, так как пользователи могут также общаться друг с другом во время взаимодействия с компьютерной системой. Сегодня предпочтителен подход использования помощника с употреблением ключевого слова. Когда пользователю надо воспользоваться голосовым помощником, ему сначала нужно назвать команду, активирующую систему, например «Окей, Google» (для системы Assistant от Google), «Alexa» (для системы Amazon Echo — самая популярная голосовая колонка в мире) или «Алиса» (для голосового помощника от Яндекс), а затем задать интересующий вопрос. К сожалению, этот способ начала диалога часто приводит к некоторому недопониманию между системой и пользователями. Система может не активироваться, когда ключевое слово было сказано, но не было распознано, и пользователь должен повторять его еще раз. Иногда, что еще хуже, система самостоятельно активируется из-за неправильно распознанной фразы пользователя или из-за использования зарезервированного ключевого слова в другом контексте без какого-либо намерения взаимодействовать с SDS.

Авторы решили создать новую систему, которая сможет отличать речевой запрос, адресованный помощнику, от разговора с другими людьми.

Все существующие до этого исследования в этом направлении проводились на корпусах текстов, спроектированных таким образом, что человек и машина играли разные роли в диалоге. Например, система имела тенденцию пассивно взаимодействовать с пользователем, только отвечая на запросы пользователя, в то время как собеседник-человек мог вести себя активно, инициируя взаимодействие. Карпову и его коллегам удалось добиться значительных улучшений в работе системы. Теперь она сможет занимать активную роль в диалоге благодаря самостоятельному определению адресата речевого сообщения пользователя. Для этого система анализирует акустические и лексические характеристики произнесенных фраз, в том числе используя автоматическое распознавание речи.

Коллектив ученых обнаружил и исследовал интересную закономерность: как только люди начинают говорить с виртуальным помощником, они упрощают и приспосабливают свою манеру речи, делая ее более разборчивой, громкой и в целом более легкой для понимания, так как они не воспринимают систему как адекватного собеседника. Ученые даже обнаружили сходство паралингвистических характеристик речи взрослых людей, обращенной к компьютеру и к маленьким детям, то есть уровень «интеллекта» помощника воспринимается на уровне ребенка.

Известно, что проблемы коммуникации между человеком и машиной в целом сильно зависят от культуры, языка, речевого корпуса и даже от говорящего. Поскольку исследование проходило совместно с учеными из Германии, зависимость акустических моделей исследовали на различных корпусах немецкой речи и проводили серию перекрестных экспериментов. Применяя новый алгоритм, основанный на микшировании данных, авторы дополнили собранный корпус Restaurant Booking Corpus (RBC), который состоит из идентичных по сложности телефонных звонков, новыми сгенерированными данными.

Для проведения экспериментов записали новые базы данных немецкой речи (Voice Assistant Conversation Corpus). Записи проходили в обстановке, похожей на жилую комнату, чтобы участники могли чувствовать себя более неформально при общении с системой. Во время каждого эксперимента пользователь решал разные задачи с помощью голосового помощника Amazon Alexa, например, назначал встречи или отвечал на вопросы викторины. Ученые провели эксперименты без использования ключевого слова. Авторы отметили, что общение с технической системой зависело от того, были ли ее ответы похожи на ответы человека или нет. В результате эти факторы могут потенциально повлиять на поведение говорящих. Учитывая эти соображения, авторы считают, что диалоги «человек-человек» и «человек-машина» должны становиться все более похожими из-за растущих возможностей будущих технических систем.

Новости и материалы
Большинство немцев выступили против запрета «Альтернативы для Германии»
Шестилетнего мальчика изнасиловали в петербургском санатории
Минобороны показало кадры освобождения села Каменского в Запорожской области
В Совфеде рассказали о новой афере мошенников с домофоном
В Дюссельдорфе произошел взрыв пиротехники на ярмарке
«Не повод для радости»: в «Балтике» высказались о ничьей с «Динамо»
Невеста турецкого миллиардера пришла на вечеринку в «голом» платье с цветами
Пожилая петербурженка обогатила мошенников на 8,5 млн рублей
Возвращение Виктории Бони в Москву чуть не обернулось дракой
Российские школьники завоевали несколько медалей на математической олимпиаде в Австралии
Верховный суд Украины рассмотрит иск о проведении президентских выборов
Зеленский сообщил о масштабной атаке БПЛА на Украину
«Торопился»: капитан «Локомотива» получил десяток штрафов, катаясь на Mercedes
Лидер «Справедливой России — За правду» призвал остановить удорожание мороженого
Бывший начальник российской колонии потребовал вернуть его звание после помилования
В Германии решили отказаться от политики «открытых дверей»
Москвич на легковушке устроил массовое ДТП на МКАД, и это попало на видео
«Великий спортсмен»: тренер синхрониста Мальцева в восторге от его золота на ЧМ
Все новости