OpenAI представила три модели для голосовых интерфейсов и ИИ-агентов: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая предназначена для живого голосового диалога с рассуждениями на уровне GPT-5, вторая — для синхронного перевода речи, третья — для потоковой транскрипции с минимальной задержкой.
Все модели функционируют через Realtime API. Стоимость GPT-Realtime-2 составляет $32 за 1 миллион входных аудиотокенов и $64 за 1 миллион выходных. Кешированный вход — $0,40 за 1 миллион токенов. GPT-Realtime-Translate оценивается в $0,034 за минуту, а GPT-Realtime-Whisper — в $0,017 за минуту. Дополнительные сведения можно найти в материале Postium.
Также читайте: 6 нейросетей для озвучивания текста голосом
Возможности и работа GPT-Realtime-2
GPT-Realtime-2 — новая ведущая модель OpenAI для голосовых агентов. В отличие от предыдущих реального времени моделей, она не только быстро отвечает голосом, но и рассуждает в процессе, удерживает длинный контекст и одновременно взаимодействует с инструментами.
Модель способна озвучивать промежуточные действия. Вместо молчания во время обработки она говорит «секунду, проверяю» или «смотрю календарь». Это важно в сценариях, где агент обращается к внешним сервисам и время ответа может варьироваться.
Появилась возможность параллельных вызовов инструментов: модель может одновременно искать информацию, проверять календарь, обращаться к CRM и другим сервисам, озвучивая свои действия в процессе работы.
OpenAI особое внимание уделяет graceful recovery. Если инструмент перестает работать или запрос не удается обработать, модель сообщает об этом голосом, а не остается в молчании.
Контекстное окно увеличилось с 32K до 128K токенов. В голосовых сценариях это позволяет поддерживать длительный диалог, историю обращений и контекст встречи без агрессивной обрезки. Разработчики могут настраивать уровень рассуждений: minimal, low, medium, high и xhigh. По умолчанию установлен уровень low, чтобы сохранить баланс между качеством ответа и задержкой.
Компания утверждает, что модель лучше справляется со специализированной терминологией, именами собственными и медицинскими терминами. Для голосовых интерфейсов это критически важно: ошибки в названиях, фамилиях или препаратах могут быстро подорвать доверие.
Тон ответа можно задавать отдельно: например, спокойный — для решения проблемы, более эмпатичный — если пользователь испытывает раздражение.
На бенчмарке Big Bench Audio GPT-Realtime-2 в режиме high продемонстрировала 96,6% результат, в то время как у GPT-Realtime-1.5 этот показатель составил 81,4%. На Audio MultiChallenge для instruction following показатели составили 48,5% против 34,7% у предыдущей версии в режиме xhigh.
OpenAI также приводит пример из практики Zillow: после оптимизации промптов для новой модели успешность звонков на внутреннем бенчмарке увеличилась с 69% до 95%.
GPT-Realtime-Translate отвечает за синхронный speech-to-speech перевод. Модель поддерживает более 70 языков на входе и переводит на 13 языков на выходе, включая русский, английский, испанский, французский, немецкий, китайский, японский и корейский.
GPT-Realtime-Whisper — это отдельная модель для потоковой транскрипции. Текст появляется в процессе речи, без ожидания завершения фразы или окончания аудиофайла. OpenAI продвигает её для live-субтитров, заметок во время встреч, трансляций и голосовых агентов с непрерывным пониманием пользователя.
Почему это важно? Голосовые модели начали функционировать как агенты: объясняют задержки, не теряются при ошибках, удерживают длинный контекст и одновременно работают с инструментами.
Это особенно актуально для поддержки, продаж, бронирований, медицины и внутренних корпоративных сценариев, где голосовой интерфейс должен не просто отвечать, а выполнять действия во время разговора.
OpenAI также стремится решить давнюю проблему голосовых ИИ-систем — ощущение «пустоты» во время ожидания ответа. Премблы и озвучка действий делают поведение агента более предсказуемым, особенно в длинных цепочках запросов.
Realtime API OpenAI развивается с конца 2024 года. Компания постепенно переходит от классического голосового режима к realtime-агентам, которые работают с инструментами, памятью и внешними сервисами прямо во время разговора.
На фоне рынка это также попытка укрепиться в инфраструктуре голосовых ИИ-продуктов. За этот сегмент борются OpenAI, Google, ElevenLabs, Anthropic и несколько стартапов. OpenAI делает акцент на сочетании «голос + агент + инструменты», а не только на качестве синтеза речи или скорости транскрипции.
Итог: OpenAI создала в Realtime API полноценный стек для голосовых продуктов: разговорный агент с рассуждениями, синхронный speech-to-speech перевод и потоковую транскрипцию в реальном времени.


