Компания «Яндекс» создала передовую нейросетевую технологию для распознавания голосовых команд в условиях громкого фона. Данное решение уже интегрировано в «умные» колонки и телевизионные приставки с голосовым помощником «Алиса».

«До настоящего времени не существовало универсального метода для распознавания голоса в шумной обстановке, который бы демонстрировал одинаковую надежность как в лабораторных испытаниях, так и в практических условиях», – объяснил руководитель направления голосовой активации «Яндекса» Дмитрий Солодуха.
Разработчикам удалось преодолеть эту трудность благодаря уникальному attention-механизму, который одновременно анализирует два обработанных аудиопотока – один после подавления эха, другой – после шумоподавления. Нейросеть в реальном времени выбирает наиболее четкий сигнал, что позволяет избежать типичных искажений, возникающих при использовании традиционных методов фильтрации.
«В большинстве “умных” устройств и помощников применяются алгоритмы подавления эха, которые помогают распознавать голос на фоне музыки. Алгоритмы шумоподавления снижают уровень других фоновых звуков, однако они также могут ухудшать качество человеческой речи», – сообщили РБК в компании.
«Яндекс» намерен опубликовать научную статью с подробным описанием своей разработки. Авторы считают, что это может способствовать прогрессу в области голосовых интерфейсов и улучшить пользовательский опыт взаимодействия с «умными» устройствами.
Ранее редакция IT Speaker сообщала, что количество пользователей «Алисы», работающей на языковой модели YandexGPT, в июне превысило 43 миллиона человек.
YouTube внедрит проверку возраста через ИИ


