
Meta AI* анонсировала запуск Omnilingual ASR — новейшей системы автоматического распознавания речи, которая поддерживает сразу 1 600 языков.
Впервые в истории искусственного интеллекта в одном проекте объединено такое количество языков, включая около 500 редких, для которых ранее не имелось качественных систем транскрибации. Postium собрал информацию об этом.
Читайте также: Нейросети для озвучивания текста голосом
Что может Omnilingual ASR и как её использовать?
Omnilingual ASR может преобразовывать речь в текст на множестве языков — от английского и русского до малораспространённых диалектов. При этом она демонстрирует высокую точность: в тестах для 78% языков ошибка распознавания составила менее 10 символов на 100 — это соответствует уровню современных коммерческих систем для популярных языков.
Основой технологии является обновлённая версия модели wav2vec 2.0, увеличенная до 7 миллиардов параметров. Это своего рода «интеллект», который способен понимать звуковые паттерны и различать языки без предварительно размеченных данных.
Как это функционирует
Meta* разработала два типа декодеров — модулей, которые преобразуют звуковой сигнал в текст:
- CTC-декодер — лёгкий и быстрый, подходит для простых задач и маломощных устройств;
- LLM-ASR-декодер — использует принципы больших языковых моделей (LLM), поэтому лучше справляется со сложными языками и длинными записями.

Эта архитектура позволила не только повысить качество распознавания, но и впервые внедрить функцию «обучения на примерах». Теперь, если система не распознаёт язык, её можно «научить» — достаточно нескольких записей речи с расшифровками. Таким образом, любой носитель языка может помочь добавить свой язык — без громоздких датасетов и сложных процессов обучения.
Статья в тему: Что такое токены и окно контекста в нейросетях
Открытая база
Также Meta* представила Omnilingual ASR Corpus — крупнейшую в мире коллекцию записей речи и транскрипций на примерно 350 малоресурсных языках. Эти данные были собраны совместно с носителями языка, лингвистами и такими организациями, как Mozilla Common Voice и Lanfrica/NaijaVoices.
Корпус доступен под лицензией CC-BY, а модели — под Apache 2.0, что позволяет свободно использовать и адаптировать их для собственных проектов — от голосовых интерфейсов до инструментов по сохранению исчезающих языков.
Почему это имеет значение?
Большинство современных систем распознавания речи эффективно работают только с языками, на которых в сети много контента — английским, китайским, испанским. В результате миллионы людей, говорящих на региональных языках, оказываются вне цифрового пространства: они не могут использовать голосовой ввод, автосубтитры или голосовых ассистентов на своём языке.
Omnilingual ASR нацелена на устранение этого дисбаланса. Она делает технологии распознавания речи доступными для всех — независимо от распространённости их языка.
Meta* опубликовала демонстрацию Omnilingual ASR в открытом доступе, где можно увидеть, какие языки уже поддерживаются и как система справляется с различными акцентами. Все модели, данные и инструкции доступны на GitHub и Hugging Face.
Сравнивая с другими аналогичными решениями, Omnilingual ASR от Meta* — самая масштабная система распознавания речи на сегодняшний день: 1 600+ языков против десятков у Whisper, Google и Microsoft, и около десятка у Alibaba Qwen3-ASR. Кроме того, её можно обучить новому языку на основе нескольких примеров, чего не умеет ни одно другое решение на данный момент.
Ранее Freepik запустил функцию «Camera Angles», которая позволяет изменять ракурс на фотографиях.
*Meta признана в России экстремистской организацией и запрещена.


