
Компания ElevenLabs представила обновленную систему для распознавания речи — Scribe v2 Realtime.
Искусственный интеллект расшифровывает речь с минимальной задержкой (менее 150 мс) и, по словам разработчиков, превосходит решения таких компаний, как Google, OpenAI и Deepgram по точности в режиме «живого» аудио. Postium собрал дополнительные детали.
Читайте также: Нейросети для пересказа видео по ссылке
Возможности Scribe v2 Realtime и принцип работы
Нейросеть Scribe v2 Realtime обладает следующими возможностями:
- распознавать речь даже в шумной обстановке, при наличии акцентов и быстрой смене говорящих;
- автоматически определять язык и переключаться между несколькими (например, английским, хинди, польским, японским и другими);
- «предугадывать» слова и корректировать текст в процессе разговора — транскрипция становится более точной прямо во время речи;
- работать с задержкой менее 150 миллисекунд;
- соответствовать промышленным стандартам безопасности — SOC 2, HIPAA, PCI DSS и другим.
Модель предназначена для задач, где критически важны скорость и точность: автоматическая расшифровка звонков в продажах и поддержке клиентов, создание субтитров для стримов и мероприятий, а также ускоренная обработка интервью и подкастов.

Первая версия Scribe уже зарекомендовала себя как одна из самых точных систем распознавания речи. Теперь ElevenLabs акцентирует внимание на распознавании в режиме реального времени. Компания утверждает, что по результатам внутренних тестов новая версия превосходит своих конкурентов по качеству распознавания, особенно в сложных аудиозаписях с шумом или несколькими голосами одновременно.
Доступность: Scribe v2 Realtime уже доступна через API ElevenLabs и может использоваться в коммерческих продуктах. Платформа поддерживает множество языков и предлагает корпоративные опции с расширенными гарантиями безопасности и хранением данных в выбранных регионах.
Итог: ElevenLabs делает серьезный шаг к лидерству в области живой транскрипции — Scribe v2 Realtime преобразует поток речи в текст почти мгновенно и без потерь в точности.
Ранее ElevenLabs представила ИИ-редактор Studio 3.0, который объединяет все ключевые инструменты платформы.


