
Nari Labs представила Dia2 — диалоговую модель ИИ для синтеза речи, способную генерировать голос в процессе ввода текста и не требующую завершенного предложения для начала работы. Она создана для живых голосовых интерфейсов и обеспечивает естественный диалог в реальном времени.
Модель доступна в двух версиях — Dia2-1B и Dia2-2B — на платформе Hugging Face. В репозиториях есть веса, токенайзер, код для инференса, и они распространяются под лицензией Apache 2.0. Дополнительные детали можно найти в материале Postium.
Читайте также: Нейросети для озвучивания текста голосом
Что умеет нейросеть Dia2 и как работает
Dia2 представляет собой streaming TTS: она конвертирует текст в речь без необходимости предварительного накопления всего входного материала. Генерация начинается с первых слов и продолжается по мере поступления текста, что сокращает задержки в диалогах.
Модель поддерживает префиксное кондиционирование: к генерации можно добавить аудиофайлы голосов участников беседы. Dia2 использует эти примеры в качестве контекста — чтобы выбрать тональность и поддерживать течение диалога.
Генерация осуществляется токенами, модель создает волну, определяет тайминги слов (относительно ~12,5 Гц частоты кадров кодека Mimi) и останавливается при достижении лимита в 1500 шагов или при получении токена конца.
На данный момент Dia2 функционирует только на английском языке и ограничена 2 минутами непрерывной генерации.
Как пользоваться Dia2
Самый простой способ — через командную строку. Устанавливаете зависимости, создаете текстовый файл с репликами и метками говорящих, такими как «[S1]» и «[S2]», запускаете команду — и модель генерирует аудиофайл.
При первом запуске инструмент сам загрузит все необходимые компоненты: веса модели, токенайзер и аудиокодек Mimi. Если у вас есть видеокарта с поддержкой CUDA, генерация будет осуществляться на GPU автоматически.
Существует расширенный режим: можно добавить примеры голосов в виде аудиофайлов к запуску. В этом случае Dia2 будет ориентироваться на них и говорить «в стиле» заданных участников беседы.
Если вы не хотите работать через терминал, можно воспользоваться готовым интерфейсом на Gradio — там все запускается через веб.
Разработчики также могут интегрировать Dia2 непосредственно в свой код: модель подключается через Python-API, где можно задать параметры генерации и сразу получать wav-файлы и метаданные.
Почему это важно? Большинство решений для озвучивания в реальном времени доступны только как закрытые API, что делает разработчиков зависимыми от серверов, тарифов и ограничений поставщика. Здесь же публикуются сами модельные веса и код под лицензией Apache 2.0 — их можно скачивать, запускать локально и использовать по своему усмотрению.
В планах команды — выпуск Dia2 TTS Server с полноценным стриминговым сервером и запуск Sori — движка для speech-to-speech на Rust, работающего на основе Dia2.
При этом, за последние месяцы в области голосовых технологий произошло множество значительных обновлений. ElevenLabs представила Scribe v2 Realtime — систему распознавания речи, работающую в реальном времени. Также была выпущена Omnilingual ASR — модель, которая распознает речь более чем на 1600 языках.
Итог: Теперь у разработчиков есть открытая стриминговая TTS-модель, которую можно запускать локально и использовать для приложений с голосом в реальном времени.


