OCR и VLM 2026: кто лидирует в распознавании документов

Последние несколько месяцев индустрия OCR и визуально-языковых моделей (VLM) переживает настоящий бум. Кажется, едва успеваешь разобраться с одной новинкой, как выходят сразу несколько новых игроков. Мы собрали свежий обзор и сравнили самые интересные модели, чтобы понять, кто реально достоин вашего продакшн-пайплайна.

1. DeepSeek-OCR 2

🐋 DeepSeek-OCR 2 - это 3B модель, ориентированная на сложные документы и OCR с пониманием структуры. Главная инновация - DeepEncoder V2, который работает почти как человек: сначала формируется глобальное понимание изображения, а потом выстраивается логический порядок чтения.

Плюсы:

Отлично справляется со сложными макетами, таблицами, подписями и структурированным текстом
На ряде бенчмарков обходит Gemini Pro
Можно запускать локально и дообучать через Unsloth

Минусы:

Размер модели 3B → выше требования к GPU для высокочастотного инференса

Лицензия: Apache 2.0 Ссылки: Hugging Face | Документация

2. Step3-VL-10B

🌟 Step3-VL-10B от Stepfun.ai - пример компактной, но "жирной" VLM. Всего 10B параметров, но она претендует на соперничество с моделями в 10-20 раз больше, включая Gemini 2.5 Pro и GLM-4.6V.

Особенности:

Визуальный энкодер 1.8B + Qwen3-8B декодер
Обучение на 1.2 трлн токенов с RLVR+RLHF
Высокие результаты по OCRBench и бенчмаркам математических задач

Минусы:

Для топовых цифр PaCoRe = 16 параллельных роллаутов → x16 вычислительных ресурсов
OCR - лишь часть возможностей, основное - VLM

Лицензия: Apache 2.0 Ссылки: vLLM / OpenAI-compatible API

3. PaddleOCR-VL-1.5

🐼 PaddleOCR-VL-1.5 - компактная модель (0.9B), оптимизированная под "полевые" условия. Кривые сканы, бликовые фото и мятые страницы - модель учли это в обучении.

Особенности:

OmniDocBench v1.5 - 94.5% точности
Text spotting, распознавание печатей, склейка таблиц между страницами
Поддержка редких языков, тибетского и бенгальского
Простая интеграция через transformers, Docker и Paddle

Минусы:

Рукописный текст пока плохо
Постраничный разбор через transformers ограничен

Лицензия: Apache 2.0 Ссылки: Hugging Face | GitHub

4. GLM-OCR

📄 GLM-OCR - мультимодальная OCR-модель на 0.9B параметров. Основана на GLM-V с CogViT визуальным энкодером и GLM-0.5B декодером. Поддерживает layout analysis через PP-DocLayout-V3 и параллельное распознавание.

Плюсы:

OmniDocBench v1.5 - 94.62% (#1)
Поддержка таблиц, формул, печатей и code-heavy документов
Инференс быстрый: vLLM / SGLang / Ollama
SDK и простая интеграция, open-source

Минусы:

JSON schema для Information Extraction требует строгого соблюдения

Лицензия: MIT (layout - Apache 2.0) Ссылки: Hugging Face | GitHub

Сравнительная таблица

Модель	Параметры	Основной фокус	Бенчмарк	OCR / Doc score	Лицензия	Деплой
DeepSeek-OCR 2	3B	OCR + структура	OCRBench	+4% к v1, обходит Gemini Pro	Apache 2.0	HF, Unsloth
Step3-VL-10B	10B	Универсальная VLM	OCRBench	86.75	Apache 2.0	vLLM, OpenAI-API
PaddleOCR-VL-1.5	0.9B	OCR в поле	OmniDocBench v1.5	94.5	Apache 2.0	Paddle, Docker
GLM-OCR	0.9B	OCR + IE	OmniDocBench v1.5	94.62 (#1)	MIT	vLLM, SGLang, Ollama

Итоги

По OmniDocBench лидеры: GLM-OCR (94.62%) и PaddleOCR-VL-1.5 (94.5%)
Самые лёгкие и быстрые для продакшн: PaddleOCR-VL-1.5 и GLM-OCR
Самые "умные" архитектурно: DeepSeek-OCR 2 с DeepEncoder V2
Самая универсальная VLM: Step3-VL-10B (OCR лишь часть возможностей)

OCR и VLM достигли зрелости, позволяя внедрять распознавание документов в реальные продакшн-сценарии: от таблиц и формул до многостраничных PDF с кодом и печатями. Гонка за скорость, точность и "понимание" документов продолжается.

OCR и VLM 2026: кто лидирует в распознавании документов

OCR и VLM 2026: кто лидирует в распознавании документов

1. DeepSeek-OCR 2

2. Step3-VL-10B

3. PaddleOCR-VL-1.5

4. GLM-OCR

Сравнительная таблица

Итоги

📚 Читайте также