Nari Labs выпустила Dia2 — открытую ИИ-модель с озвучкой в реальном времени

Nari Labs представила Dia2 — диалоговую модель ИИ для синтеза речи, способную генерировать голос в процессе ввода текста и не требующую завершенного предложения для начала работы. Она создана для живых голосовых интерфейсов и обеспечивает естественный диалог в реальном времени.

Модель доступна в двух версиях — Dia2-1B и Dia2-2B — на платформе Hugging Face. В репозиториях есть веса, токенайзер, код для инференса, и они распространяются под лицензией Apache 2.0. Дополнительные детали можно найти в материале Postium.

Читайте также: Нейросети для озвучивания текста голосом

Что умеет нейросеть Dia2 и как работает

Dia2 представляет собой streaming TTS: она конвертирует текст в речь без необходимости предварительного накопления всего входного материала. Генерация начинается с первых слов и продолжается по мере поступления текста, что сокращает задержки в диалогах.

Модель поддерживает префиксное кондиционирование: к генерации можно добавить аудиофайлы голосов участников беседы. Dia2 использует эти примеры в качестве контекста — чтобы выбрать тональность и поддерживать течение диалога.

Генерация осуществляется токенами, модель создает волну, определяет тайминги слов (относительно ~12,5 Гц частоты кадров кодека Mimi) и останавливается при достижении лимита в 1500 шагов или при получении токена конца.

На данный момент Dia2 функционирует только на английском языке и ограничена 2 минутами непрерывной генерации.

Как пользоваться Dia2

Самый простой способ — через командную строку. Устанавливаете зависимости, создаете текстовый файл с репликами и метками говорящих, такими как «[S1]» и «[S2]», запускаете команду — и модель генерирует аудиофайл.

При первом запуске инструмент сам загрузит все необходимые компоненты: веса модели, токенайзер и аудиокодек Mimi. Если у вас есть видеокарта с поддержкой CUDA, генерация будет осуществляться на GPU автоматически.

Существует расширенный режим: можно добавить примеры голосов в виде аудиофайлов к запуску. В этом случае Dia2 будет ориентироваться на них и говорить «в стиле» заданных участников беседы.

Если вы не хотите работать через терминал, можно воспользоваться готовым интерфейсом на Gradio — там все запускается через веб.

Разработчики также могут интегрировать Dia2 непосредственно в свой код: модель подключается через Python-API, где можно задать параметры генерации и сразу получать wav-файлы и метаданные.

Почему это важно? Большинство решений для озвучивания в реальном времени доступны только как закрытые API, что делает разработчиков зависимыми от серверов, тарифов и ограничений поставщика. Здесь же публикуются сами модельные веса и код под лицензией Apache 2.0 — их можно скачивать, запускать локально и использовать по своему усмотрению.

В планах команды — выпуск Dia2 TTS Server с полноценным стриминговым сервером и запуск Sori — движка для speech-to-speech на Rust, работающего на основе Dia2.

При этом, за последние месяцы в области голосовых технологий произошло множество значительных обновлений. ElevenLabs представила Scribe v2 Realtime — систему распознавания речи, работающую в реальном времени. Также была выпущена Omnilingual ASR — модель, которая распознает речь более чем на 1600 языках.

Итог: Теперь у разработчиков есть открытая стриминговая TTS-модель, которую можно запускать локально и использовать для приложений с голосом в реальном времени.

Nari Labs выпустила Dia2 — открытую ИИ-модель с озвучкой в реальном времени

Что умеет нейросеть Dia2 и как работает

Как пользоваться Dia2

Популярные новости

В «Сбере» запустили проверку ограничений на выезд за границу

VK закрывает «Рейтинг Mail.ru»

Экономика ИИ-проектов: почему 90% пилотов остаются пилотами

«Сбер» открыл SberStudios

Стала известна дата релиза нового ограбления для GTA Online

Последние новости

В «Сбере» запустили проверку ограничений на выезд за границу

VK закрывает «Рейтинг Mail.ru»

Экономика ИИ-проектов: почему 90% пилотов остаются пилотами

«Сбер» открыл SberStudios

Стала известна дата релиза нового ограбления для GTA Online

НазадБолее 730 киберклубов объединит Московская международная неделя видеоигр

ДалееПредприниматели выступили против ограничения скидок на маркетплейсах

Nari Labs выпустила Dia2 — открытую ИИ-модель с озвучкой в реальном времени

Что умеет нейросеть Dia2 и как работает

Как пользоваться Dia2

Популярные новости

Последние новости

НазадБолее 730 киберклубов объединит Московская международная неделя видеоигр

ДалееПредприниматели выступили против ограничения скидок на маркетплейсах

Лучшее от AllWeb.ru

«Сбер» представил ИИ-сотрудника для маркетинга

Instagram* убирает возможность оставлять заметки к постам и видео Reels

Где слушать подкасты бесплатно — 6 лучших приложений для подкастов