
Компания Hailuo AI (MiniMax) анонсировала новую редакцию своей модели ИИ для синтеза речи — MiniMax Speech 2.6.
Разработчики характеризуют её как «сверхбыструю, естественную и интеллектуальную»: задержка отклика составляет менее 250 миллисекунд, речь звучит крайне естественно, а система умеет корректно произносить адреса, даты и числа. Postium подготовил обзор данного обновления.
Читайте также: 5 нейросетей для озвучивания текста голосом
Функционал нейросети MiniMax Speech 2.6
Speech 2.6 функционирует через API Text-to-Audio (T2A) — интерфейс, который преобразует текст в речь в режиме реального времени.
Основные возможности:
- до 10 000 символов в одном запросе;
- поддержка потокового синтеза (streaming) — речь создаётся «на лету», без ожидания завершения запроса;
- 300+ предварительно заданных голосов и возможность клонировать собственный;
- гибкие настройки громкости, тембра, скорости и высоты тона;
- поддержка популярных аудиоформатов — mp3, pcm, flac, wav (последний доступен вне стриминга);
- пропорциональное аудиомикширование — можно объединять несколько дорожек или озвучек в одном потоке.
Система полностью статична и защищена: модель не сохраняет пользовательские данные и не использует контекст предыдущих запросов.
Новые модели. MiniMax предложила несколько версий движка:
- speech-2.6-hd — улучшенное качество озвучки и точность при клонировании;
- speech-2.6-turbo — оптимизированная скорость и поддержка 40 языков.
Мультиязычность. Speech 2.6 поддерживает 40 языков, включая русский, английский, китайский, французский, арабский, испанский, японский и корейский. Модель может использовать несколько языков в одном предложении.
Доступность. Speech 2.6 уже доступна на официальном сайте MiniMax и в разделе документации API компании. Разработчики могут протестировать сервис прямо сейчас — через HTTP или WebSocket-запросы, либо подключить готовый MCP-сервер на Python или JavaScript.
Интерфейс и документация доступны на английском и китайском языках, мультиязычный синтез речи доступен во всех регионах, включая Россию.
Как работать с MiniMax Speech 2.6
На сайте MiniMax имеется простой и интуитивно понятный интерфейс для генерации озвучки, без необходимости программирования и настройки API. Всё функционирует прямо в браузере — на сайте.
1. Введите текст. В центральном поле «Speech Synthesis» напишите текст, который вы хотите озвучить. Система автоматически определит язык (например, русский, английский или китайский).

Поддерживаются тексты до 5 000 символов — можно активировать режим Long Text для длинных записей.
2. Выберите модель. В верхней панели задаётся модель синтеза — по умолчанию speech-2.6-hd. Она обеспечивает максимальную реалистичность и естественную интонацию.
3. Настройте голос. В правом блоке Settings выберите голос (например, Radiant Girl или Man With Deep Voice).
Можно задать:
- Emotion — эмоциональный стиль (нейтральный, радостный, драматичный и т.д.);
- Speed — скорость речи;
- Pitch — высоту тона;
- Volume — громкость.
Некоторые параметры, отмеченные как Limited-time Free, доступны безвозмездно в тестовом режиме.
4. Генерация и прослушивание. Нажмите Generate, и через несколько секунд MiniMax создаст готовый аудиофайл.
5. Внизу появится проигрыватель, где можно: прослушать результат, скачать его, оценить (лайк/дизлайк) и добавить в закладки.
Дополнительно: В боковом меню доступны инструменты Voice Clone (создание клона голоса), Voice Design (настройка тембра и интонации) и Voice Isolator (очистка записей).
Таким образом, MiniMax Speech 2.6 подходит как для быстрого озвучивания текста, так и для профессиональной работы с голосами, рекламой и интерактивными проектами.
Почему это важно? MiniMax активно развивает экосистему ИИ-сервисов. В октябре компания представила MiniMax-M2 — открытую модель на 230 млрд параметров для умных агентов, а также Hailuo 2.3 — обновлённый генератор видео с реалистичными эмоциями и движением.
Релиз Speech 2.6 дополняет эту линейку, превращая MiniMax в платформу полного цикла — текст, голос и видео в одном ИИ-стеке.
Итог: MiniMax Speech 2.6 позволяет за считанные минуты получить реалистичную озвучку — будь то диктор для видео, голос чат-бота или аудиоурок. Всё настраивается прямо в веб-интерфейсе, без сложной интеграции.
Это одно из самых передовых решений в области синтеза речи: быстрая реакция, естественная интонация, клон-голоса и поддержка 40 языков делают её конкурентом ElevenLabs, OpenAI Voice, Microsoft TTS и новой Sonic-3.


