OpenAI выпустила GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper

OpenAI представила три модели для голосовых интерфейсов и ИИ-агентов: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая предназначена для живого голосового диалога с рассуждениями на уровне GPT-5, вторая — для синхронного перевода речи, третья — для потоковой транскрипции с минимальной задержкой.

Все модели функционируют через Realtime API. Стоимость GPT-Realtime-2 составляет $32 за 1 миллион входных аудиотокенов и $64 за 1 миллион выходных. Кешированный вход — $0,40 за 1 миллион токенов. GPT-Realtime-Translate оценивается в $0,034 за минуту, а GPT-Realtime-Whisper — в $0,017 за минуту. Дополнительные сведения можно найти в материале Postium.

Также читайте: 6 нейросетей для озвучивания текста голосом

Возможности и работа GPT-Realtime-2

GPT-Realtime-2 — новая ведущая модель OpenAI для голосовых агентов. В отличие от предыдущих реального времени моделей, она не только быстро отвечает голосом, но и рассуждает в процессе, удерживает длинный контекст и одновременно взаимодействует с инструментами.

Модель способна озвучивать промежуточные действия. Вместо молчания во время обработки она говорит «секунду, проверяю» или «смотрю календарь». Это важно в сценариях, где агент обращается к внешним сервисам и время ответа может варьироваться.

Появилась возможность параллельных вызовов инструментов: модель может одновременно искать информацию, проверять календарь, обращаться к CRM и другим сервисам, озвучивая свои действия в процессе работы.

OpenAI особое внимание уделяет graceful recovery. Если инструмент перестает работать или запрос не удается обработать, модель сообщает об этом голосом, а не остается в молчании.

Контекстное окно увеличилось с 32K до 128K токенов. В голосовых сценариях это позволяет поддерживать длительный диалог, историю обращений и контекст встречи без агрессивной обрезки. Разработчики могут настраивать уровень рассуждений: minimal, low, medium, high и xhigh. По умолчанию установлен уровень low, чтобы сохранить баланс между качеством ответа и задержкой.

Компания утверждает, что модель лучше справляется со специализированной терминологией, именами собственными и медицинскими терминами. Для голосовых интерфейсов это критически важно: ошибки в названиях, фамилиях или препаратах могут быстро подорвать доверие.

Тон ответа можно задавать отдельно: например, спокойный — для решения проблемы, более эмпатичный — если пользователь испытывает раздражение.

На бенчмарке Big Bench Audio GPT-Realtime-2 в режиме high продемонстрировала 96,6% результат, в то время как у GPT-Realtime-1.5 этот показатель составил 81,4%. На Audio MultiChallenge для instruction following показатели составили 48,5% против 34,7% у предыдущей версии в режиме xhigh.

OpenAI также приводит пример из практики Zillow: после оптимизации промптов для новой модели успешность звонков на внутреннем бенчмарке увеличилась с 69% до 95%.

GPT-Realtime-Translate отвечает за синхронный speech-to-speech перевод. Модель поддерживает более 70 языков на входе и переводит на 13 языков на выходе, включая русский, английский, испанский, французский, немецкий, китайский, японский и корейский.

GPT-Realtime-Whisper — это отдельная модель для потоковой транскрипции. Текст появляется в процессе речи, без ожидания завершения фразы или окончания аудиофайла. OpenAI продвигает её для live-субтитров, заметок во время встреч, трансляций и голосовых агентов с непрерывным пониманием пользователя.

Почему это важно? Голосовые модели начали функционировать как агенты: объясняют задержки, не теряются при ошибках, удерживают длинный контекст и одновременно работают с инструментами.

Это особенно актуально для поддержки, продаж, бронирований, медицины и внутренних корпоративных сценариев, где голосовой интерфейс должен не просто отвечать, а выполнять действия во время разговора.

OpenAI также стремится решить давнюю проблему голосовых ИИ-систем — ощущение «пустоты» во время ожидания ответа. Премблы и озвучка действий делают поведение агента более предсказуемым, особенно в длинных цепочках запросов.

Realtime API OpenAI развивается с конца 2024 года. Компания постепенно переходит от классического голосового режима к realtime-агентам, которые работают с инструментами, памятью и внешними сервисами прямо во время разговора.

На фоне рынка это также попытка укрепиться в инфраструктуре голосовых ИИ-продуктов. За этот сегмент борются OpenAI, Google, ElevenLabs, Anthropic и несколько стартапов. OpenAI делает акцент на сочетании «голос + агент + инструменты», а не только на качестве синтеза речи или скорости транскрипции.

Итог: OpenAI создала в Realtime API полноценный стек для голосовых продуктов: разговорный агент с рассуждениями, синхронный speech-to-speech перевод и потоковую транскрипцию в реальном времени.

Тэги OpenAI Нейросети

OpenAI выпустила GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper — новые голосовые нейросети

Возможности и работа GPT-Realtime-2

Популярные новости

В Москве впервые поженили гуманоидных роботов

Скамеры предлагают зарабатывать с помощью ChatGPT

OpenAI запустила ChatGPT Work — ИИ-агент для работы с файлами и приложениями

Новый вирус может шифровать файлы на Android через браузер

Как пользоваться GPT-5.6 в ChatGPT бесплатно — гайд

Последние новости

В Москве впервые поженили гуманоидных роботов

Скамеры предлагают зарабатывать с помощью ChatGPT

OpenAI запустила ChatGPT Work — ИИ-агент для работы с файлами и приложениями

Новый вирус может шифровать файлы на Android через браузер

Как пользоваться GPT-5.6 в ChatGPT бесплатно — гайд

НазадХакеры взломали страницы 8800 школ

ДалееMacRumors: Apple разрабатывает iPhone с голографическим экраном

OpenAI выпустила GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper — новые голосовые нейросети

Возможности и работа GPT-Realtime-2

Популярные новости

Последние новости

НазадХакеры взломали страницы 8800 школ

ДалееMacRumors: Apple разрабатывает iPhone с голографическим экраном

Лучшее от AllWeb.ru

«Сбер» выкупил 41,9% акций «Элемента»

WhatsApp получит компенсацию в размере $170 млн

Apple создает личного ИИ-коуча