
Команда Qwen сообщила о публикации исходного кода и весов всей серии Qwen3-TTS. Это коллекция моделей, предназначенных для синтеза речи, клонирования голосов и «Voice Design» — создания новых тембров на основе текстового описания.
Модели уже доступны для общего пользования на ModelScope, Hugging Face и GitHub. Кроме того, они могут быть использованы через Qwen API для облачного доступа.
Читайте также: 5 нейросетей для озвучивания текста голосом
Нейросеть Qwen3-TTS — что это и что умеет
Qwen3-TTS представляет собой потоковые TTS-модели с архитектурой Dual-Track. Основная характеристика — чрезвычайно низкая задержка: первый аудиофрагмент может поступить уже после ввода одного символа, а общая задержка начинается с 97 мс.
Линейка создана без использования DiT-подхода и ориентирована на end-to-end генерацию речи. Модели предлагаются в двух вариантах: версия с 1,7 млрд параметров для достижения максимального качества и версия с 0,6 млрд — для более эффективных и быстрых сценариев.

Особое внимание уделено многоязычности. Модели поддерживают 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский, а также различные диалекты.
Как пользоваться
Для быстрого старта доступны онлайн-демо на платформах с моделями. Для локального использования можно скачать веса и код из репозиториев, таких как Hugging Face. Там также можно найти демо:

В облаке Qwen3-TTS функционирует через API с оплатой на основе количества входных символов, без необходимости развертывать собственную инфраструктуру.
Почему это важно? Минимальная задержка делает Qwen3-TTS подходящим для реального диалога — голосовых помощников, игр, интерактивных интерфейсов и live-озвучки.
Для рынка это означает появление мощного инструмента с открытым исходным кодом, способного конкурировать с закрытыми решениями. Поддержка русского языка «из коробки» и отсутствие зависимости от сложной диффузионной архитектуры делают модель привлекательной для создания локальных голосовых помощников и систем озвучивания контента.
Таким образом, индустрия ИИ активно движется к мультимодальности и снижению задержек (low latency). Ранее стандартом считалась потоковая передача после завершения генерации предложения или фразы, теперь борьба идет за миллисекунды. Qwen продолжает стратегию открытости своих разработок, следуя трендам, установленным релизами Llama и Mistral, но с акцентом на мультимедийные возможности.
Итог: Разработчики получили бесплатный доступ к быстрой и многоязычной нейросети для синтеза речи, способной работать практически в реальном времени.
Ранее Google выпустила TranslateGemma — открытые ИИ-модели для перевода.

