Skip to main content

Команда разработчиков DeepSeek представила новую открытую модель для распознавания документов – DeepSeek-OCR. Эта модель уникальна тем, что ИИ не просто извлекает текст с листов, а также восстанавливает структуру документа: заголовки, списки, таблицы и подписи к изображениям.

Следует отметить, что полученный результат можно экспортировать в формате Markdown, который идеально подходит для индексации и дальнейшей обработки нейросетями. DeepSeek-OCR доступна под лицензией MIT и размещена на платформе Hugging Face.

Также эта модель выделяется «оптическим сжатием контекста». То есть, ИИ не пересказывает каждую деталь с страницы, а извлекает только необходимую информацию: текст и смысловую структуру. Это позволяет уменьшить объем данных в среднем в десять-двадцать раз и существенно снижает стоимость обработки: чем меньше токенов, тем быстрее и дешевле работает любая следующая языковая модель.

Более того, DeepSeek-OCR применяет так называемые визуальные токены – условные «взгляды» на части изображения. Даже при ограниченном бюджете (64-100 токенов) уровень точности распознавания остается на уровне 97-99%. Если страница оказывается слишком сложной, активируется режим Gundam: документ автоматически разбивается на отдельные фрагменты, и сложные участки анализируются по очереди, не ограничивая общую скорость.

Разработчики из команды DeepSeek создали новую методику для самообучения моделей ИИ. Она позволяет ИИ самостоятельно осваивать новые навыки и знания без человеческого вмешательства.

Вам может быть интересно: 

Обучение модели R1 от Deepseek обошлось в $294 тысячи

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий