Skip to main content

Компания VK повысила эффективность распознавания речи на 20% в своих продуктах благодаря новой версии технологии ASR (автоматическое распознавание речи). Улучшилась точность субтитров и голосовых сообщений в приложении VK.

Эта технология способна трансформировать голос в текст, при этом для лучшего распознавания слов она устраняет шумы из записи и анализирует особенности речи. Благодаря большим языковым моделям она может уловить контекст, смысловые связи и устойчивые выражения, что делает расшифровку более естественной.

«ASR-технологии VK применяются для создания субтитров в “VK Видео”, “VK Клипах”, “Учи.ру” и в голосовых сообщениях мессенджера “ВКонтакте”. Они также используются для внутренних и инженерных задач, таких как расшифровка встреч или их суммирование, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery», – информирует VK.

Для дообучения использовался набор данных из аудиотреков, доступных в открытом доступе. Это позволило технологии более точно понимать темп и стиль речи, а также, согласно результатам внутренних тестов, она превосходит зарубежные аналоги.

Технология уже активно используется в «VK Видео» и «VK Клипах», а также применяется во внутренних сервисах команды VK. В будущем планируется ее интеграция в другие продукты компании, а также повышение точности распознавания голосовых сообщений. Кроме того, будет расширен список языков, которые поддерживает технология, и добавлена возможность разделения текста по спикерам.

Ранее в сервисе VK Play появилась долгожданная функция синхронизации с аккаунтом Steam. После авторизации все игры из библиотеки Steam будут отображаться и в лаунчере VK Play, что позволит хранить проекты из разных магазинов в одном месте и запускать их напрямую с единой платформы.

Вас может заинтересовать: 

В «Яндекс Лавке» обновили ИИ

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий