Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием

Американская компания Cartesia представила Sonic-3 — новую нейросеть для генерации речи из текста, способную выражать эмоции и реагировать в режиме реального времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, может смеяться и варьировать интонации.

Кроме того, Cartesia объявила о получении $100 млн инвестиций от таких фондов, как Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Эти средства будут направлены на расширение возможностей Sonic-3 и развитие архитектуры компании. Дополнительная информация доступна в материале Postium.

Также читайте: 6 нейросетей для озвучивания текста голосом

Нейросеть Sonic-3 — что это такое и на что она способна

Основное отличие Sonic-3 от других генераторов речи (text-to-speech) заключается в ее способе обработки информации. Вместо привычных трансформеров, которые пересчитывают весь предыдущий контекст перед каждым словом, Sonic-3 использует архитектуру State Space Models (SSM).

Эта технология позволяет модели запоминать состояние беседы, а не «пересматривать» весь контекст заново. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые характеристики:

Естественность речи. Модель включает смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
Скорость. Средняя задержка — 90 мс для модели и 190 мс в целом, что быстрее, чем у конкурентов.
Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
Контекстное восприятие. Sonic корректно обрабатывает акронимы и названия, такие как NASA или UNESCO, а также «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также может клонировать голоса — создавать уникальные варианты звучания для бренда, диктора или персонажа. Это позволяет компаниям поддерживать единый «тон голоса» в службе поддержки, рекламе или интерфейсах.

Помимо естественности и скорости, Sonic-3 выделяется масштабируемостью — она поддерживает потоковую генерацию, обрабатывает миллионы одновременных запросов и может функционировать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен для всех пользователей, в том числе и для России. Бесплатно предоставляют 20 000 кредитов — этого достаточно, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный тариф — от $5 в месяц, он открывает доступ к коммерческому использованию и API. Нейросеть функционирует прямо в браузере и не требует установки.

Статья в тему: Как оформить подписку на Suno AI в России

Как использовать нейросеть Sonic-3 для генерации озвучки текста голосом

Проверить, как работает Sonic-3, можно непосредственно на сайте cartesia.ai/sonic — без необходимости установки и регистрации. Редакция Postium протестировала нейросеть и делится впечатлениями о процессе.

Шаг 1. Перейдите на сайт и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью аккаунта Google или GitHub.

Шаг 2. Откроется интерфейс для тестирования модели. Введите текст, который планируете озвучить. В текстовом поле можно написать любую фразу — от короткого приветствия до сложного диалога. Модель поддерживает 42 языка, включая русский, английский, испанский и другие.

Шаг 3. Выберите голос. Sonic-3 предлагает различные варианты — мужские и женские, с различными тембрами и стилями речи.

При выборе голоса, воспользуйтесь фильтром для удобства. Например, можно найти голоса для озвучивания текста на русском языке и сразу прослушать их. Также доступны голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сцен.

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса, можно отрегулировать скорость и громкость, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальна — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Также можно скачать аудиофайл — кнопка «Download».

Вот, что у нас получилось (звучит весьма впечатляюще и профессионально):

https://postium.ru/wp-content/uploads/2025/10/cartesia_audio_2025-10-29T16_33_3002_00.wav

Также на сайте есть раздел Playground — «песочница» для разработчиков. Здесь можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результаты в код.

через Playground — онлайн-интерфейс с настройками и примерами;
с функцией Voice Cloning — для создания уникального голоса;
в Enterprise-режиме — для корпоративных клиентов с особенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это имеет значение?

Традиционные системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основываются на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, что делает процесс генерации сложным и сравнительно медленным.

Sonic-3 применяет другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние беседы и обновляет его по мере разговора, подобно тому, как это делает человек. Следовательно, речь звучит плавно и естественно, а ответы поступают практически мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже незначительная пауза может испортить впечатление от общения.

Согласно информации от Cartesia, Sonic-3 уже используется в таких компаниях, как ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее, чем традиционные TTS-системы. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, службах поддержки или озвучивании контента.

Тэги Нейросети

Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием

Нейросеть Sonic-3 — что это такое и на что она способна

Как использовать нейросеть Sonic-3 для генерации озвучки текста голосом

Почему это имеет значение?

Популярные новости

«Ростелеком» обновил систему защиты от DDoS-атак

Госдума приняла закон о маркировке ИИ-контента

edna: цифровая нагрузка россиян выросла на 80%

Спецкостюм позволит тараканам-киборгам дышать под водой до трех часов

OpenAI представила GPT-Live — новую голосовую модель для ChatGPT

Последние новости

«Ростелеком» обновил систему защиты от DDoS-атак

Госдума приняла закон о маркировке ИИ-контента

edna: цифровая нагрузка россиян выросла на 80%

Спецкостюм позволит тараканам-киборгам дышать под водой до трех часов

OpenAI представила GPT-Live — новую голосовую модель для ChatGPT

НазадТовары на Ozon подорожают на 5%

ДалееВ России создали виртуальный город для тренировки киберзащиты

Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием

Нейросеть Sonic-3 — что это такое и на что она способна

Как использовать нейросеть Sonic-3 для генерации озвучки текста голосом

Почему это имеет значение?

Популярные новости

Последние новости

НазадТовары на Ozon подорожают на 5%

ДалееВ России создали виртуальный город для тренировки киберзащиты

Лучшее от AllWeb.ru

Гроссмейстер Карлсен сыграл с ChatGPT

Любознательный инженер случайно возглавил целую армию роботов-пылесосов

Роскомнадзор опроверг связь сбоев в Рунете