
Команда Qwen (которая является частью Alibaba) представила новую модель ИИ для распознавания речи — Qwen3-ASR-Flash. Она основана на модели Qwen3-Omni и обучена на десятках миллионов часов звуковых данных. Система распознаёт 11 языков и даже может справляться с вокалом на фоне музыки.
Эта новая нейросеть обещает высокую точность и надежность распознавания речи — включая акценты и диалекты китайского языка, а также работу в шумной обстановке. Кроме того, модель может «подсказать», как интерпретировать речь — если загрузить любой текст (от ключевых слов до полных документов), она адаптирует результаты в соответствии с контекстом.
Читайте также: Бесплатные нейросети для озвучивания текста
Возможности нейросети Qwen3-ASR-Flash
Модель позволяет устанавливать текстовый «контекст» — от ключевых слов до несвязанных текстов — и адаптирует результаты под него. Это полезно при работе с терминологией, именами или специфическими темами (например, в медицине или видеоиграх).
Что ещё:
- Высокая точность распознавания — модель превосходит аналогичные решения на тестах для китайского, английского и ещё 9 языков.
- Пение — не проблема — она умеет точно транскрибировать вокал даже на фоне музыки.
- Гибкий контекст — можно загружать подсказки в виде любого текста: от списков до абзацев.
- Определяет язык и отсекает шум — модель точно распознаёт язык и игнорирует неречевые звуки (фон, тишину).
- Работает в сложных условиях — эффективно справляется с плохой акустикой и нестандартной подачей.
Поддерживаемые языки:
- Русский;
- Китайский (включая диалекты: сычуаньский, миньнань, у и кантонский);
- Английский (британский, американский и другие);
- И ещё 8 языков: французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский.
Как использовать Qwen3‑ASR‑Flash
Наиболее удобным способом протестировать ИИ-модель является демо на Hugging Face — там можно загрузить аудиофайл и мгновенно получить транскрипцию.

Для более гибкой работы и интеграции подойдёт API от Alibaba Cloud Model Studio: вы отправляете аудио и, при необходимости, текстовый контекст (до 10 000 токенов) — это может быть список терминов или абзац с тематикой записи.
Сервис поддерживает 11 языков, автоматически определяет речь, фильтрует шум и работает даже с вокалом. Бесплатная квота — до 10 часов аудио на 180 дней.
Qwen обещает регулярные обновления сервиса — с целью улучшения точности, адаптации под различные сценарии и внедрения уникальных функций, таких как распознавание вокала.
Ранее Alibaba представила ИИ-модель с 1 триллионом параметров — Qwen3-Max-Preview (Instruct).


