
BytePlus (подразделение компании ByteDance) представила Seed Speech 2.0 — платформу на основе AI для голосового взаимодействия, которая сочетает в себе синтез речи (TTS) и распознавание речи (ASR) в одном решении. Организация ставит на универсальный стек для голосовых интерфейсов — от создания озвучивания до интерпретации живой речи.
Презентация продукта состоялась 16 марта. Платформа уже открыта для разработчиков и корпоративных клиентов через API для интеграции в приложения, интеллектуальные устройства и автоматизированные системы. Подробные условия и цены пока не разглашаются. Дополнительные сведения можно найти в материале Postium.
Читайте также: Нейросети для озвучивания текста голосом
Seed Speech 2.0 — что это и что умеет делать
Seed Speech 2.0 — это объединённая система, состоящая из двух нейросетей: TTS 2.0 и ASR 2.0.
TTS 2.0 отвечает за создание речи. Эта модель учитывает не только текст, но также контекст, подбирая интонацию, паузы и ритм в соответствии со сценарием. Пользователь может управлять голосом через текстовые параметры: задавать эмоции, стиль, темп, высоту и тембр.

ASR 2.0 отвечает за распознавание речи. Предоставляются два режима: потоковое распознавание в режиме реального времени и обработка аудиофайлов. Система поддерживает 51 язык, способна определять эмоции говорящего и лучше учитывает контекст во время диалога.
Также заявлена мультимодальность: модель может учитывать не только аудио, но и визуальный контекст — изображения и видео — для более точной интерпретации речи.
Как пользоваться
Seed Speech 2.0 доступен через платформу BytePlus. Пользователь регистрируется в консоли, получает доступ к документации и подключается к API.

В документации представлены отдельные интерфейсы для TTS и ASR, включая streaming-режимы по WebSocket и обработку файлов. Сервис ориентирован на интеграцию в продукты — ассистенты, медиасервисы, колл-центры и другие голосовые сценарии.
Почему это важно? BytePlus предлагает не набор разрозненных инструментов, а единую платформу для работы с голосом. Это упрощает процесс разработки: вместо интеграции нескольких сервисов можно использовать один стек для генерации, распознавания и обработки речи.
Компания утверждает следующие показатели: около 90% точности при чтении сложных формул и символов, примерно +20% к распознаванию контекстных слов и до −50% ошибок в сценариях распознавания на расстоянии (far-field).
BytePlus продолжает расширять ассортимент моделей Seed. Компания продвигает Seedream 5.0 Lite для генерации изображений и ранее выпускала Seedance 2.0 для создания видео. В этом контексте Seed Speech 2.0 представляется как очередной шаг к формированию набора прикладных AI-инструментов для бизнеса под брендом Seed.
Итог: BytePlus объединяет голосовой AI в одно решение с API, однако заявленные преимущества пока подтверждаются только самой компанией.


