Skip to main content
Что умеет gpt-realtime и как ей пользоваться

OpenAI анонсировала новую голосовую модель gpt-realtime. Теперь искусственный интеллект распознаёт и произносит речь мгновенно, «на лету», без промежуточного текстового этапа. Это делает взаимодействие более быстрым и естественным — как в обычной беседе.

С запуском модели заработал Realtime API — инструмент для разработчиков, который позволит создавать более динамичных и отзывчивых голосовых помощников. Например, можно создать репетитора по английскому, который не просто говорит, но и слушает ваше произношение, предоставляя обратную связь — всё в реальном времени.

Читайте также: Бесплатные нейросети для озвучивания текста голосом

Что умеет gpt-realtime и как ей пользоваться

Realtime API уже доступен для всех разработчиков. OpenAI также снизила стоимость голосовых токенов на 20%. Все эти возможности можно протестировать через Playground — инструмент для быстрой проверки новых функций. Стоит отметить, что gpt-realtime пока не интегрирована в ChatGPT.

Как функционирует gpt-realtime:

  1. Речь без текста. Ранее голосовые ИИ работали в три этапа: сначала распознавали речь (STT), затем обрабатывали текст, а после озвучивали ответ (TTS). Теперь это выполняет одна модель — звук на вход, звук на выход. Без лишних задержек и потерь интонации.
  2. Живые голоса. Модель произносит реплики с паузами, эмоциями и корректными ударениями. Можно задавать стиль речи: например, «говори энергично и дружелюбно» или «медленно и официально». Также добавлены новые голоса — Cedar и Marin.
  3. Понимает множество языков. gpt-realtime распознаёт множество языков и может переключаться между ними прямо в процессе разговора. Поддерживается и русский язык.
  4. Работает в звонках и с изображениями. Новый API можно интегрировать с телефонной сетью (SIP), а также добавлять изображения в разговор — например, чтобы агент «видел» ваш экран или фотографию товара.

Для чего это можно использовать:

  • Изучение языков. Говорящий ИИ-репетитор помогает тренировать произношение, реагирует на ошибки и предлагает правильные фразы.
  • Голосовые помощники. Виртуальные ассистенты, которые понимают вас с первой фразы и отвечают сразу голосом.
  • Телефонные боты. Автоматические голосовые операторы, которые звучат естественно и могут мгновенно переключаться на нужный стиль общения.

Ранее OpenAI уже запускала бета-версию этой технологии — она функционировала на базе GPT-4o. Но сейчас это полноценный релиз: быстрее, гибче и с поддержкой новых функций, таких как телефонные звонки и эмоциональные голоса.

Кроме того, недавно ChatGPT научился проводить квизы прямо в чате.

OpenAI Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий