Skip to main content
Custom Voices в Grok — xAI запустила клонирование голоса для TTS и ИИ-агентов

xAI внедрила в Grok API возможность использования Custom Voices. Эта функция позволяет клонировать голос по короткой записи и мгновенно применять его в Text to Speech и Voice Agent API. Кроме того, компания анонсировала Voice Library — раздел в консоли xAI, где представлены как встроенные, так и пользовательские голоса команды.

Эта функция уже доступна в экосистеме xAI. Пользовательский голос получает уникальный voice_id, который может быть использован в любых TTS-запросах или в реальном времени подключён к голосовым агентам. Подробности можно найти в материале Postium.

Читайте также: 6 нейросетей для озвучки текста голосом

Что такое Custom Voices в Grok и как это работает

Система формирует голосовую модель из записи длительностью около минуты. Перед началом записи человек должен произнести проверочную фразу — xAI использует её как подтверждение идентификации и согласия.

После записи сервис сопоставляет голос из проверочного клипа с основным аудиофайлом. Если голоса совпадают, система создаёт индивидуальную модель и добавляет её в Voice Library.

Custom Voices в Grok — что это и как работает

xAI особо подчеркивает: загрузить запись другого человека и создать клон не получится. Проверка основана на живом подтверждении голоса, а не на уже существующем аудиофайле.

Созданный голос функционирует так же, как и встроенные TTS-голоса xAI. Поддерживаются речевые метки, потоковая генерация через REST и WebSocket, а также многоязычный вывод.

Параллельно xAI расширила встроенный голосовой каталог: теперь в библиотеке более 80 голосов на 28 языках.

Как использовать?

Custom Voices можно создать непосредственно в консоли xAI. Для этого необходимо открыть создание нового голоса, произнести фразу и записать примерно минуту речи. После обработки голос появится в Voice Library.

Как пользоваться, как сделать запись и создать клон своего голоса

Далее всё функционирует через стандартный API-вызов: разработчик передаёт voice_id вместо обычного голоса в Text to Speech или Voice Agent API.

Почему это имеет значение? Ранее кастомные голоса требовали отдельного сервиса, сложной модерации и ручной интеграции. xAI интегрировала все эти процессы в существующий комплекс Grok: запись, подтверждение личности, создание модели и подключение к API.

Это особенно важно для голосовых ИИ-агентов. Большинство AI-ассистентов до сих пор звучат как набор одинаковых системных голосов. xAI стремится сделать голос частью идентичности продукта: поддержки, медиа, помощника или корпоративного ассистента.

Ещё один важный момент — xAI не вводит отдельную плату за пользовательские голоса. Custom Voices функционируют в рамках обычного использования TTS и Voice Agent API.

xAI активно развивает голосовую часть Grok API в последние недели. Сначала компания запустила Speech to Text и Text to Speech API, затем представила модель grok-voice-think-fast-1.0 для разговорных агентов в реальном времени. Теперь на этом стеке появился полноценный уровень кастомных голосов и централизованная Voice Library.

По сути, xAI создаёт свою альтернативу ElevenLabs, OpenAI Voice Engine и другим платформам, но сразу внутри экосистемы Grok.

Вывод: Grok эволюционировал из обычного TTS-сервиса в полноценную платформу для голосовых агентов — с собственными голосами и встроенным клонированием речи.

Grok Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий