Skip to main content
Нейросеть Qwen3‑ASR‑Flash: что умеет и как ей пользоваться

Команда Qwen (которая является частью Alibaba) представила новую модель ИИ для распознавания речи — Qwen3-ASR-Flash. Она основана на модели Qwen3-Omni и обучена на десятках миллионов часов звуковых данных. Система распознаёт 11 языков и даже может справляться с вокалом на фоне музыки.

Эта новая нейросеть обещает высокую точность и надежность распознавания речи — включая акценты и диалекты китайского языка, а также работу в шумной обстановке. Кроме того, модель может «подсказать», как интерпретировать речь — если загрузить любой текст (от ключевых слов до полных документов), она адаптирует результаты в соответствии с контекстом.

Читайте также: Бесплатные нейросети для озвучивания текста

Возможности нейросети Qwen3-ASR-Flash

Модель позволяет устанавливать текстовый «контекст» — от ключевых слов до несвязанных текстов — и адаптирует результаты под него. Это полезно при работе с терминологией, именами или специфическими темами (например, в медицине или видеоиграх).

Что ещё:

  1. Высокая точность распознавания — модель превосходит аналогичные решения на тестах для китайского, английского и ещё 9 языков.
  2. Пение — не проблема — она умеет точно транскрибировать вокал даже на фоне музыки.
  3. Гибкий контекст — можно загружать подсказки в виде любого текста: от списков до абзацев.
  4. Определяет язык и отсекает шум — модель точно распознаёт язык и игнорирует неречевые звуки (фон, тишину).
  5. Работает в сложных условиях — эффективно справляется с плохой акустикой и нестандартной подачей.

Поддерживаемые языки:

  • Русский;
  • Китайский (включая диалекты: сычуаньский, миньнань, у и кантонский);
  • Английский (британский, американский и другие);
  • И ещё 8 языков: французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский.

Как использовать Qwen3‑ASR‑Flash

Наиболее удобным способом протестировать ИИ-модель является демо на Hugging Face — там можно загрузить аудиофайл и мгновенно получить транскрипцию.

Как пользоваться Qwen3‑ASR‑Flash

Для более гибкой работы и интеграции подойдёт API от Alibaba Cloud Model Studio: вы отправляете аудио и, при необходимости, текстовый контекст (до 10 000 токенов) — это может быть список терминов или абзац с тематикой записи.

Сервис поддерживает 11 языков, автоматически определяет речь, фильтрует шум и работает даже с вокалом. Бесплатная квота — до 10 часов аудио на 180 дней.

Qwen обещает регулярные обновления сервиса — с целью улучшения точности, адаптации под различные сценарии и внедрения уникальных функций, таких как распознавание вокала.

Ранее Alibaba представила ИИ-модель с 1 триллионом параметров — Qwen3-Max-Preview (Instruct).

Qwen Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий