
Американская компания Cartesia представила Sonic-3 — новую нейросеть для генерации речи из текста, способную выражать эмоции и реагировать в режиме реального времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, может смеяться и варьировать интонации.
Кроме того, Cartesia объявила о получении $100 млн инвестиций от таких фондов, как Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Эти средства будут направлены на расширение возможностей Sonic-3 и развитие архитектуры компании. Дополнительная информация доступна в материале Postium.
Также читайте: 6 нейросетей для озвучивания текста голосом
Нейросеть Sonic-3 — что это такое и на что она способна
Основное отличие Sonic-3 от других генераторов речи (text-to-speech) заключается в ее способе обработки информации. Вместо привычных трансформеров, которые пересчитывают весь предыдущий контекст перед каждым словом, Sonic-3 использует архитектуру State Space Models (SSM).
Эта технология позволяет модели запоминать состояние беседы, а не «пересматривать» весь контекст заново. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.
Ключевые характеристики:
- Естественность речи. Модель включает смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
- Скорость. Средняя задержка — 90 мс для модели и 190 мс в целом, что быстрее, чем у конкурентов.
- Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
- Контекстное восприятие. Sonic корректно обрабатывает акронимы и названия, такие как NASA или UNESCO, а также «понимает» эмоциональный контекст и ритм диалога.
Sonic-3 также может клонировать голоса — создавать уникальные варианты звучания для бренда, диктора или персонажа. Это позволяет компаниям поддерживать единый «тон голоса» в службе поддержки, рекламе или интерфейсах.
Помимо естественности и скорости, Sonic-3 выделяется масштабируемостью — она поддерживает потоковую генерацию, обрабатывает миллионы одновременных запросов и может функционировать в продуктивных системах без потери качества.
Доступность: Sonic-3 уже доступен для всех пользователей, в том числе и для России. Бесплатно предоставляют 20 000 кредитов — этого достаточно, чтобы протестировать модель и использовать её для личных проектов.
Минимальный платный тариф — от $5 в месяц, он открывает доступ к коммерческому использованию и API. Нейросеть функционирует прямо в браузере и не требует установки.
Статья в тему: Как оформить подписку на Suno AI в России
Как использовать нейросеть Sonic-3 для генерации озвучки текста голосом
Проверить, как работает Sonic-3, можно непосредственно на сайте cartesia.ai/sonic — без необходимости установки и регистрации. Редакция Postium протестировала нейросеть и делится впечатлениями о процессе.
Шаг 1. Перейдите на сайт и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью аккаунта Google или GitHub.

Шаг 2. Откроется интерфейс для тестирования модели. Введите текст, который планируете озвучить. В текстовом поле можно написать любую фразу — от короткого приветствия до сложного диалога. Модель поддерживает 42 языка, включая русский, английский, испанский и другие.

Шаг 3. Выберите голос. Sonic-3 предлагает различные варианты — мужские и женские, с различными тембрами и стилями речи.

При выборе голоса, воспользуйтесь фильтром для удобства. Например, можно найти голоса для озвучивания текста на русском языке и сразу прослушать их. Также доступны голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сцен.

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса, можно отрегулировать скорость и громкость, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальна — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Также можно скачать аудиофайл — кнопка «Download».

Вот, что у нас получилось (звучит весьма впечатляюще и профессионально):
Также на сайте есть раздел Playground — «песочница» для разработчиков. Здесь можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результаты в код.
- через Playground — онлайн-интерфейс с настройками и примерами;
- с функцией Voice Cloning — для создания уникального голоса;
- в Enterprise-режиме — для корпоративных клиентов с особенными требованиями к безопасности (SOC 2, HIPAA, PCI).
Почему это имеет значение?
Традиционные системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основываются на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, что делает процесс генерации сложным и сравнительно медленным.
Sonic-3 применяет другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние беседы и обновляет его по мере разговора, подобно тому, как это делает человек. Следовательно, речь звучит плавно и естественно, а ответы поступают практически мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.
Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже незначительная пауза может испортить впечатление от общения.
Согласно информации от Cartesia, Sonic-3 уже используется в таких компаниях, как ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.
Итог: Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее, чем традиционные TTS-системы. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, службах поддержки или озвучивании контента.


