Skip to main content
Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями

Американская компания Cartesia представила Sonic-3 — новую нейросеть для генерации речи из текста, способную выражать эмоции и реагировать в режиме реального времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, может смеяться и варьировать интонации.

Кроме того, Cartesia объявила о получении $100 млн инвестиций от таких фондов, как Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Эти средства будут направлены на расширение возможностей Sonic-3 и развитие архитектуры компании. Дополнительная информация доступна в материале Postium.

Также читайте: 6 нейросетей для озвучивания текста голосом

Нейросеть Sonic-3 — что это такое и на что она способна

Основное отличие Sonic-3 от других генераторов речи (text-to-speech) заключается в ее способе обработки информации. Вместо привычных трансформеров, которые пересчитывают весь предыдущий контекст перед каждым словом, Sonic-3 использует архитектуру State Space Models (SSM).

Эта технология позволяет модели запоминать состояние беседы, а не «пересматривать» весь контекст заново. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые характеристики:

  • Естественность речи. Модель включает смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
  • Скорость. Средняя задержка — 90 мс для модели и 190 мс в целом, что быстрее, чем у конкурентов.
  • Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
  • Контекстное восприятие. Sonic корректно обрабатывает акронимы и названия, такие как NASA или UNESCO, а также «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также может клонировать голоса — создавать уникальные варианты звучания для бренда, диктора или персонажа. Это позволяет компаниям поддерживать единый «тон голоса» в службе поддержки, рекламе или интерфейсах.

Помимо естественности и скорости, Sonic-3 выделяется масштабируемостью — она поддерживает потоковую генерацию, обрабатывает миллионы одновременных запросов и может функционировать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен для всех пользователей, в том числе и для России. Бесплатно предоставляют 20 000 кредитов — этого достаточно, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный тариф — от $5 в месяц, он открывает доступ к коммерческому использованию и API. Нейросеть функционирует прямо в браузере и не требует установки.

Статья в тему: Как оформить подписку на Suno AI в России

Как использовать нейросеть Sonic-3 для генерации озвучки текста голосом

Проверить, как работает Sonic-3, можно непосредственно на сайте cartesia.ai/sonic — без необходимости установки и регистрации. Редакция Postium протестировала нейросеть и делится впечатлениями о процессе.

Шаг 1. Перейдите на сайт и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью аккаунта Google или GitHub.

Как пользоваться нейросетью Sonic-3

Шаг 2. Откроется интерфейс для тестирования модели. Введите текст, который планируете озвучить. В текстовом поле можно написать любую фразу — от короткого приветствия до сложного диалога. Модель поддерживает 42 языка, включая русский, английский, испанский и другие.

Как озвучить текст голосом с помощью нейросети

Шаг 3. Выберите голос. Sonic-3 предлагает различные варианты — мужские и женские, с различными тембрами и стилями речи.

Выбор голоса для озвучки

При выборе голоса, воспользуйтесь фильтром для удобства. Например, можно найти голоса для озвучивания текста на русском языке и сразу прослушать их. Также доступны голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сцен.

Русские голоса для озвучки текста голосом

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса, можно отрегулировать скорость и громкость, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Настройки ИИ-синтеза речи

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальна — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Также можно скачать аудиофайл — кнопка «Download».

Генерация речи по тексту

Вот, что у нас получилось (звучит весьма впечатляюще и профессионально):

https://postium.ru/wp-content/uploads/2025/10/cartesia_audio_2025-10-29T16_33_3002_00.wav

Также на сайте есть раздел Playground — «песочница» для разработчиков. Здесь можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результаты в код.

  • через Playground — онлайн-интерфейс с настройками и примерами;
  • с функцией Voice Cloning — для создания уникального голоса;
  • в Enterprise-режиме — для корпоративных клиентов с особенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это имеет значение?

Традиционные системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основываются на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, что делает процесс генерации сложным и сравнительно медленным.

Sonic-3 применяет другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние беседы и обновляет его по мере разговора, подобно тому, как это делает человек. Следовательно, речь звучит плавно и естественно, а ответы поступают практически мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже незначительная пауза может испортить впечатление от общения.

Согласно информации от Cartesia, Sonic-3 уже используется в таких компаниях, как ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее, чем традиционные TTS-системы. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, службах поддержки или озвучивании контента.

Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий