Исследователи из Яндекса представили нейросеть, способную идентифицировать голосовые команды даже в шумной обстановке.
YandexART 2.5 обошла другие нейросети по генерации изображений
YandexART 2.5, созданная в России, показала впечатляющие результаты по сравнению с зарубежными аналогами. Она превзошла по качеству генерации изображений Recraft V3, Ideogram v3.0 и Imagen 3.0 от Google.
На платформе «Арена Text‑to‑Image моделей» прошёл первый этап тестирования, где пользователи оценивали изображения, созданные различными моделями. YandexART 2.5 заняла первое и третье места, опередив своих соперников.
Важно подчеркнуть, что во время тестирования пользователи не знали, какая модель создала изображения, что обеспечило объективный рейтинг, основанный на реальных предпочтениях.
Исследователи из Яндекса представили нейросеть, способную идентифицировать голосовые команды даже в шумной обстановке
Эта технология уже применяется в устройствах Яндекса, и теперь разработчики по всему миру смогут ею воспользоваться.
Статья была принята к публикации на крупнейшей международной конференции по речевым технологиям Interspeech, которая пройдет в этом году в Нидерландах. На конференции также будут представлены работы от Microsoft, Google DeepMind, Google AR и других технологических компаний и научных учреждений.
Технология, описанная в научной статье, уже используется в умных колонках и телевизионных устройствах Яндекса и продемонстрировала свою эффективность. С её помощью устройства с Алисой могут распознавать команды, произнесённые на фоне различных шумов, таких как музыка, звук текущей воды, вечеринки или строительные работы за окном. Например, пользователю не нужно отключать пылесос или повышать голос, чтобы его услышали.
Эта разработка позволит компаниям ускорить создание собственных ассистентов и устройств с голосовым управлением, а также уменьшить количество ложных срабатываний. В итоге пользователи получат продукты с удобным голосовым управлением.
Обычно в умных устройствах и ассистентах применяются алгоритмы подавления эха, которые помогают различать голос на фоне музыки. Алгоритмы шумоподавления уменьшают другие фоновые звуки, но также могут ухудшать восприятие человеческой речи. Для решения этой проблемы Яндекс разработал нейросетевой attention-механизм, который принимает два сигнала: с шумоподавлением и подавлением эха. В каждый момент времени нейросеть выбирает наиболее чёткий сигнал, что позволяет распознавать команды на фоне разных звуков.
Теги:#yandex



