
OpenAI анонсировала новую голосовую модель gpt-realtime. Теперь искусственный интеллект распознаёт и произносит речь мгновенно, «на лету», без промежуточного текстового этапа. Это делает взаимодействие более быстрым и естественным — как в обычной беседе.
С запуском модели заработал Realtime API — инструмент для разработчиков, который позволит создавать более динамичных и отзывчивых голосовых помощников. Например, можно создать репетитора по английскому, который не просто говорит, но и слушает ваше произношение, предоставляя обратную связь — всё в реальном времени.
Читайте также: Бесплатные нейросети для озвучивания текста голосом
Что умеет gpt-realtime и как ей пользоваться
Realtime API уже доступен для всех разработчиков. OpenAI также снизила стоимость голосовых токенов на 20%. Все эти возможности можно протестировать через Playground — инструмент для быстрой проверки новых функций. Стоит отметить, что gpt-realtime пока не интегрирована в ChatGPT.
Как функционирует gpt-realtime:
- Речь без текста. Ранее голосовые ИИ работали в три этапа: сначала распознавали речь (STT), затем обрабатывали текст, а после озвучивали ответ (TTS). Теперь это выполняет одна модель — звук на вход, звук на выход. Без лишних задержек и потерь интонации.
- Живые голоса. Модель произносит реплики с паузами, эмоциями и корректными ударениями. Можно задавать стиль речи: например, «говори энергично и дружелюбно» или «медленно и официально». Также добавлены новые голоса — Cedar и Marin.
- Понимает множество языков. gpt-realtime распознаёт множество языков и может переключаться между ними прямо в процессе разговора. Поддерживается и русский язык.
- Работает в звонках и с изображениями. Новый API можно интегрировать с телефонной сетью (SIP), а также добавлять изображения в разговор — например, чтобы агент «видел» ваш экран или фотографию товара.
Для чего это можно использовать:
- Изучение языков. Говорящий ИИ-репетитор помогает тренировать произношение, реагирует на ошибки и предлагает правильные фразы.
- Голосовые помощники. Виртуальные ассистенты, которые понимают вас с первой фразы и отвечают сразу голосом.
- Телефонные боты. Автоматические голосовые операторы, которые звучат естественно и могут мгновенно переключаться на нужный стиль общения.
Ранее OpenAI уже запускала бета-версию этой технологии — она функционировала на базе GPT-4o. Но сейчас это полноценный релиз: быстрее, гибче и с поддержкой новых функций, таких как телефонные звонки и эмоциональные голоса.
Кроме того, недавно ChatGPT научился проводить квизы прямо в чате.


