
xAI внедрила в Grok API возможность использования Custom Voices. Эта функция позволяет клонировать голос по короткой записи и мгновенно применять его в Text to Speech и Voice Agent API. Кроме того, компания анонсировала Voice Library — раздел в консоли xAI, где представлены как встроенные, так и пользовательские голоса команды.
Эта функция уже доступна в экосистеме xAI. Пользовательский голос получает уникальный voice_id, который может быть использован в любых TTS-запросах или в реальном времени подключён к голосовым агентам. Подробности можно найти в материале Postium.
Читайте также: 6 нейросетей для озвучки текста голосом
Что такое Custom Voices в Grok и как это работает
Система формирует голосовую модель из записи длительностью около минуты. Перед началом записи человек должен произнести проверочную фразу — xAI использует её как подтверждение идентификации и согласия.
После записи сервис сопоставляет голос из проверочного клипа с основным аудиофайлом. Если голоса совпадают, система создаёт индивидуальную модель и добавляет её в Voice Library.

xAI особо подчеркивает: загрузить запись другого человека и создать клон не получится. Проверка основана на живом подтверждении голоса, а не на уже существующем аудиофайле.
Созданный голос функционирует так же, как и встроенные TTS-голоса xAI. Поддерживаются речевые метки, потоковая генерация через REST и WebSocket, а также многоязычный вывод.
Параллельно xAI расширила встроенный голосовой каталог: теперь в библиотеке более 80 голосов на 28 языках.
Как использовать?
Custom Voices можно создать непосредственно в консоли xAI. Для этого необходимо открыть создание нового голоса, произнести фразу и записать примерно минуту речи. После обработки голос появится в Voice Library.

Далее всё функционирует через стандартный API-вызов: разработчик передаёт voice_id вместо обычного голоса в Text to Speech или Voice Agent API.
Почему это имеет значение? Ранее кастомные голоса требовали отдельного сервиса, сложной модерации и ручной интеграции. xAI интегрировала все эти процессы в существующий комплекс Grok: запись, подтверждение личности, создание модели и подключение к API.
Это особенно важно для голосовых ИИ-агентов. Большинство AI-ассистентов до сих пор звучат как набор одинаковых системных голосов. xAI стремится сделать голос частью идентичности продукта: поддержки, медиа, помощника или корпоративного ассистента.
Ещё один важный момент — xAI не вводит отдельную плату за пользовательские голоса. Custom Voices функционируют в рамках обычного использования TTS и Voice Agent API.
xAI активно развивает голосовую часть Grok API в последние недели. Сначала компания запустила Speech to Text и Text to Speech API, затем представила модель grok-voice-think-fast-1.0 для разговорных агентов в реальном времени. Теперь на этом стеке появился полноценный уровень кастомных голосов и централизованная Voice Library.
По сути, xAI создаёт свою альтернативу ElevenLabs, OpenAI Voice Engine и другим платформам, но сразу внутри экосистемы Grok.
Вывод: Grok эволюционировал из обычного TTS-сервиса в полноценную платформу для голосовых агентов — с собственными голосами и встроенным клонированием речи.


