OCR и VLM 2026: кто лидирует в распознавании документов
OCR и VLM 2026: кто лидирует в распознавании документов
Последние несколько месяцев индустрия OCR и визуально-языковых моделей (VLM) переживает настоящий бум. Кажется, едва успеваешь разобраться с одной новинкой, как выходят сразу несколько новых игроков. Мы собрали свежий обзор и сравнили самые интересные модели, чтобы понять, кто реально достоин вашего продакшн-пайплайна.
1. DeepSeek-OCR 2
🐋 DeepSeek-OCR 2 - это 3B модель, ориентированная на сложные документы и OCR с пониманием структуры. Главная инновация - DeepEncoder V2, который работает почти как человек: сначала формируется глобальное понимание изображения, а потом выстраивается логический порядок чтения.
Плюсы:
- Отлично справляется со сложными макетами, таблицами, подписями и структурированным текстом
- На ряде бенчмарков обходит Gemini Pro
- Можно запускать локально и дообучать через Unsloth
Минусы:
- Размер модели 3B → выше требования к GPU для высокочастотного инференса
Лицензия: Apache 2.0 Ссылки: Hugging Face | Документация
2. Step3-VL-10B
🌟 Step3-VL-10B от Stepfun.ai - пример компактной, но "жирной" VLM. Всего 10B параметров, но она претендует на соперничество с моделями в 10-20 раз больше, включая Gemini 2.5 Pro и GLM-4.6V.
Особенности:
- Визуальный энкодер 1.8B + Qwen3-8B декодер
- Обучение на 1.2 трлн токенов с RLVR+RLHF
- Высокие результаты по OCRBench и бенчмаркам математических задач
Минусы:
- Для топовых цифр PaCoRe = 16 параллельных роллаутов → x16 вычислительных ресурсов
- OCR - лишь часть возможностей, основное - VLM
Лицензия: Apache 2.0 Ссылки: vLLM / OpenAI-compatible API
3. PaddleOCR-VL-1.5
🐼 PaddleOCR-VL-1.5 - компактная модель (0.9B), оптимизированная под "полевые" условия. Кривые сканы, бликовые фото и мятые страницы - модель учли это в обучении.
Особенности:
- OmniDocBench v1.5 - 94.5% точности
- Text spotting, распознавание печатей, склейка таблиц между страницами
- Поддержка редких языков, тибетского и бенгальского
- Простая интеграция через transformers, Docker и Paddle
Минусы:
- Рукописный текст пока плохо
- Постраничный разбор через transformers ограничен
Лицензия: Apache 2.0 Ссылки: Hugging Face | GitHub
4. GLM-OCR
📄 GLM-OCR - мультимодальная OCR-модель на 0.9B параметров. Основана на GLM-V с CogViT визуальным энкодером и GLM-0.5B декодером. Поддерживает layout analysis через PP-DocLayout-V3 и параллельное распознавание.
Плюсы:
- OmniDocBench v1.5 - 94.62% (#1)
- Поддержка таблиц, формул, печатей и code-heavy документов
- Инференс быстрый: vLLM / SGLang / Ollama
- SDK и простая интеграция, open-source
Минусы:
- JSON schema для Information Extraction требует строгого соблюдения
Лицензия: MIT (layout - Apache 2.0) Ссылки: Hugging Face | GitHub
Сравнительная таблица
| Модель | Параметры | Основной фокус | Бенчмарк | OCR / Doc score | Лицензия | Деплой |
|---|---|---|---|---|---|---|
| DeepSeek-OCR 2 | 3B | OCR + структура | OCRBench | +4% к v1, обходит Gemini Pro | Apache 2.0 | HF, Unsloth |
| Step3-VL-10B | 10B | Универсальная VLM | OCRBench | 86.75 | Apache 2.0 | vLLM, OpenAI-API |
| PaddleOCR-VL-1.5 | 0.9B | OCR в поле | OmniDocBench v1.5 | 94.5 | Apache 2.0 | Paddle, Docker |
| GLM-OCR | 0.9B | OCR + IE | OmniDocBench v1.5 | 94.62 (#1) | MIT | vLLM, SGLang, Ollama |
Итоги
- По OmniDocBench лидеры: GLM-OCR (94.62%) и PaddleOCR-VL-1.5 (94.5%)
- Самые лёгкие и быстрые для продакшн: PaddleOCR-VL-1.5 и GLM-OCR
- Самые "умные" архитектурно: DeepSeek-OCR 2 с DeepEncoder V2
- Самая универсальная VLM: Step3-VL-10B (OCR лишь часть возможностей)
OCR и VLM достигли зрелости, позволяя внедрять распознавание документов в реальные продакшн-сценарии: от таблиц и формул до многостраничных PDF с кодом и печатями. Гонка за скорость, точность и "понимание" документов продолжается.
📚 Читайте также
- AI-опыт: как перестать конкурировать с тысячами кандидатов
- AI - это не про промпты
- Идеальное резюме: AI-конвейер и баланс обязанностей vs достижений
- Part-time, подписка или штат? В каком формате бизнесу нужен ИИ-стратег
- Собственная CMS на GitHub: как Copilot помогает писать, публиковать и анонсировать контент