Skip to main content
DeepSeek-OCR — что это и как работает

Компания DeepSeek продемонстрировала DeepSeek-OCR — OCR-модель, разработанную специально для больших языковых моделей. Вместо привычного распознавания текста, она преобразует страницу в визуальные токены, что позволяет LLM обрабатывать документы быстрее и с меньшими затратами.

На vLLM 0.8.5 модель генерирует около 2500 токенов в секунду на GPU A100-40G. Postium собрал ключевую информацию о новинке.

Читайте также: Как формулировать промты для DeepSeek

DeepSeek-OCR — что это и как функционирует

DeepSeek-OCR — это новая система распознавания текста от компании DeepSeek, созданная для эффективной работы с большими языковыми моделями (LLM).

Основная концепция заключается не только в преобразовании изображения в текст, но и в сжатии визуального контекста страницы (документа, PDF) в компактный набор токенов, которые LLM затем «распаковывает» для анализа и понимания.

Принцип работы:

  1. Страница преобразуется в визуальные токены. Модель изучает изображение (скан, PDF) и кодирует его в десятки, а не тысячи токенов.
  2. LLM получает компактное представление. Эти токены уже содержат информацию о тексте, структуре (таблицы, списки) и формате документа.
  3. Распаковка и интерпретация. Внутри LLM эти токены преобразуются обратно в текст и структуру — без необходимости видеть каждый пиксель.

В результате LLM понимает документ в целом, но использует в 10–20 раз меньше контекста, чем при стандартном OCR.

На бенчмарке OmniDocBench DeepSeek-OCR опережает GOT-OCR 2.0 и MinerU 2.0, при этом используя в 2–3 раза меньше визуальных токенов.

DeepSeek-OCR на бенчмарке OmniDocBench

Почему это важно: DeepSeek-OCR ускоряет работу LLM с документами — до 2500 токенов/с на GPU A100, снижает затраты — за счёт меньшего количества токенов при инференсе, повышает точность — сохраняя 97% точности при 10-кратном сжатии, и обеспечивает гибкость — поддерживая PDF, сканы и изображения напрямую через vLLM.

Возможные сферы применения:

  • Автоматизированный анализ контрактов, отчётов и форм;
  • Быстрое извлечение данных из длинных PDF-документов;
  • Создание структурированных ответов (JSON, Markdown, таблицы);
  • Интеграция в RAG-пайплайны и чат-ботов для работы с документами.

Как использовать? DeepSeek-OCR — это инструмент для разработчиков, а не конечных пользователей. Модель доступна для загрузки с Hugging Face или GitHub и может быть интегрирована в ваши пайплайны — например, в веб-сервисы, системы анализа документов или обработки больших данных.

Она принимает на вход изображения, сканы и PDF-страницы, возвращая компактные визуальные токены или распознанный текст. Совместима с vLLM 0.8.5, Transformers, PyTorch 2.6+ и работает на CUDA 11.8+.

Итог: DeepSeek-OCR не делает ИИ «зрячим» в человеческом понимании, однако приближает его к тому, как человек воспринимает документ.

Ранее OCR распознавал лишь буквы и строки, не понимая, где находится таблица, подпись или заголовок. Теперь модель передаёт LLM сжатое, но осмысленное представление страницы — так, как человек видит её целиком: и текст, и структуру, и логику оформления.

Также недавно стало известно, что DeepSeek V4 может выйти в октябре.

DeepSeek Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий