Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Нейросеть Qwen3‑ASR‑Flash: что умеет и как ей пользоваться

Команда Qwen (которая является частью Alibaba) представила новую модель ИИ для распознавания речи — Qwen3-ASR-Flash. Она основана на модели Qwen3-Omni и обучена на десятках миллионов часов звуковых данных. Система распознаёт 11 языков и даже может справляться с вокалом на фоне музыки.

Эта новая нейросеть обещает высокую точность и надежность распознавания речи — включая акценты и диалекты китайского языка, а также работу в шумной обстановке. Кроме того, модель может «подсказать», как интерпретировать речь — если загрузить любой текст (от ключевых слов до полных документов), она адаптирует результаты в соответствии с контекстом.

Читайте также: Бесплатные нейросети для озвучивания текста

Возможности нейросети Qwen3-ASR-Flash

Модель позволяет устанавливать текстовый «контекст» — от ключевых слов до несвязанных текстов — и адаптирует результаты под него. Это полезно при работе с терминологией, именами или специфическими темами (например, в медицине или видеоиграх).

Что ещё:

Высокая точность распознавания — модель превосходит аналогичные решения на тестах для китайского, английского и ещё 9 языков.
Пение — не проблема — она умеет точно транскрибировать вокал даже на фоне музыки.
Гибкий контекст — можно загружать подсказки в виде любого текста: от списков до абзацев.
Определяет язык и отсекает шум — модель точно распознаёт язык и игнорирует неречевые звуки (фон, тишину).
Работает в сложных условиях — эффективно справляется с плохой акустикой и нестандартной подачей.

Поддерживаемые языки:

Русский;
Китайский (включая диалекты: сычуаньский, миньнань, у и кантонский);
Английский (британский, американский и другие);
И ещё 8 языков: французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский.

Как использовать Qwen3‑ASR‑Flash

Наиболее удобным способом протестировать ИИ-модель является демо на Hugging Face — там можно загрузить аудиофайл и мгновенно получить транскрипцию.

Как пользоваться Qwen3‑ASR‑Flash

Для более гибкой работы и интеграции подойдёт API от Alibaba Cloud Model Studio: вы отправляете аудио и, при необходимости, текстовый контекст (до 10 000 токенов) — это может быть список терминов или абзац с тематикой записи.

Сервис поддерживает 11 языков, автоматически определяет речь, фильтрует шум и работает даже с вокалом. Бесплатная квота — до 10 часов аудио на 180 дней.

Qwen обещает регулярные обновления сервиса — с целью улучшения точности, адаптации под различные сценарии и внедрения уникальных функций, таких как распознавание вокала.

Ранее Alibaba представила ИИ-модель с 1 триллионом параметров — Qwen3-Max-Preview (Instruct).

Тэги Qwen Нейросети

Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Возможности нейросети Qwen3-ASR-Flash

Как использовать Qwen3‑ASR‑Flash

Популярные новости

BI.ZONE обнаружила троян CoreRAT в атаках на российские организации

Вышла нейросеть Seedance 2.5 — модель генерирует ролики до 30 секунд

Intel и Fortinet создали чип для борьбы с хакерами

MiniMax H3 — новая ИИ-модель для генерации видео с открытыми весами

Маркировка вызовов сократила число холодных обзвонов и спам-звонков

Последние новости

BI.ZONE обнаружила троян CoreRAT в атаках на российские организации

Вышла нейросеть Seedance 2.5 — модель генерирует ролики до 30 секунд

Intel и Fortinet создали чип для борьбы с хакерами

MiniMax H3 — новая ИИ-модель для генерации видео с открытыми весами

Маркировка вызовов сократила число холодных обзвонов и спам-звонков

НазадМаркетплейсы заняли лидирующие позиции по среднедневному охвату аудитории, опередив платформы онлайн-видео

ДалееХакеры запугивают компании устаревшими утечками данных

Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Возможности нейросети Qwen3-ASR-Flash

Как использовать Qwen3‑ASR‑Flash

Популярные новости

Последние новости

НазадМаркетплейсы заняли лидирующие позиции по среднедневному охвату аудитории, опередив платформы онлайн-видео

ДалееХакеры запугивают компании устаревшими утечками данных

Лучшее от AllWeb.ru

«Костыли» и коды: почему 2026 год станет переломным для российского ИТ

38% россиян пишут поздравления с помощью ИИ

Найдена планетная система, которой не должно быть