Qwen открыла исходный код Qwen3-TTS — это ИИ для генерация речи с задержкой от 97 мс

Нейросеть Qwen3-TTS — что это и что умеет

Команда Qwen сообщила о публикации исходного кода и весов всей серии Qwen3-TTS. Это коллекция моделей, предназначенных для синтеза речи, клонирования голосов и «Voice Design» — создания новых тембров на основе текстового описания.

Модели уже доступны для общего пользования на ModelScope, Hugging Face и GitHub. Кроме того, они могут быть использованы через Qwen API для облачного доступа.

Читайте также: 5 нейросетей для озвучивания текста голосом

Нейросеть Qwen3-TTS — что это и что умеет

Qwen3-TTS представляет собой потоковые TTS-модели с архитектурой Dual-Track. Основная характеристика — чрезвычайно низкая задержка: первый аудиофрагмент может поступить уже после ввода одного символа, а общая задержка начинается с 97 мс.

Линейка создана без использования DiT-подхода и ориентирована на end-to-end генерацию речи. Модели предлагаются в двух вариантах: версия с 1,7 млрд параметров для достижения максимального качества и версия с 0,6 млрд — для более эффективных и быстрых сценариев.

Особое внимание уделено многоязычности. Модели поддерживают 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский, а также различные диалекты.

Как пользоваться

Для быстрого старта доступны онлайн-демо на платформах с моделями. Для локального использования можно скачать веса и код из репозиториев, таких как Hugging Face. Там также можно найти демо:

В облаке Qwen3-TTS функционирует через API с оплатой на основе количества входных символов, без необходимости развертывать собственную инфраструктуру.

Почему это важно? Минимальная задержка делает Qwen3-TTS подходящим для реального диалога — голосовых помощников, игр, интерактивных интерфейсов и live-озвучки.

Для рынка это означает появление мощного инструмента с открытым исходным кодом, способного конкурировать с закрытыми решениями. Поддержка русского языка «из коробки» и отсутствие зависимости от сложной диффузионной архитектуры делают модель привлекательной для создания локальных голосовых помощников и систем озвучивания контента.

Таким образом, индустрия ИИ активно движется к мультимодальности и снижению задержек (low latency). Ранее стандартом считалась потоковая передача после завершения генерации предложения или фразы, теперь борьба идет за миллисекунды. Qwen продолжает стратегию открытости своих разработок, следуя трендам, установленным релизами Llama и Mistral, но с акцентом на мультимедийные возможности.

Итог: Разработчики получили бесплатный доступ к быстрой и многоязычной нейросети для синтеза речи, способной работать практически в реальном времени.

Ранее Google выпустила TranslateGemma — открытые ИИ-модели для перевода.

Тэги Qwen Нейросети

Qwen открыла исходный код Qwen3-TTS — это ИИ для генерация речи с задержкой от 97 мс

Нейросеть Qwen3-TTS — что это и что умеет

Как пользоваться

Популярные новости

Google вложит $75 млн в киностудию А24 для развития ИИ

Google Flow добавил генерацию с использованием Google Maps Street View

В «Максе» снова приходят уведомления на iOS

Codex от OpenAI критически изнашивает SSD

Sony рассказала о будущем PS5 при дефиците памяти

Последние новости

Google вложит $75 млн в киностудию А24 для развития ИИ

Google Flow добавил генерацию с использованием Google Maps Street View

В «Максе» снова приходят уведомления на iOS

Codex от OpenAI критически изнашивает SSD

Sony рассказала о будущем PS5 при дефиците памяти

НазадМошенники атакуют дипфейками из 2016 года

ДалееПутин поручил ускорить создание платформы в сфере микроэлектроники

Qwen открыла исходный код Qwen3-TTS — это ИИ для генерация речи с задержкой от 97 мс

Нейросеть Qwen3-TTS — что это и что умеет

Как пользоваться

Популярные новости

Последние новости

НазадМошенники атакуют дипфейками из 2016 года

ДалееПутин поручил ускорить создание платформы в сфере микроэлектроники

Лучшее от AllWeb.ru

В России представили концепт первых Международных космических игр

Фильмы про бизнес и предпринимательство — 10 лучших

Создана визитная карточка, на которой работает языковая модель