slavb18

    OCR и VLM 2026: кто лидирует в распознавании документов

    AIOCRVLMDocumentAI

    OCR и VLM 2026: кто лидирует в распознавании документов

    Последние несколько месяцев индустрия OCR и визуально-языковых моделей (VLM) переживает настоящий бум. Кажется, едва успеваешь разобраться с одной новинкой, как выходят сразу несколько новых игроков. Мы собрали свежий обзор и сравнили самые интересные модели, чтобы понять, кто реально достоин вашего продакшн-пайплайна.


    1. DeepSeek-OCR 2

    🐋 DeepSeek-OCR 2 - это 3B модель, ориентированная на сложные документы и OCR с пониманием структуры. Главная инновация - DeepEncoder V2, который работает почти как человек: сначала формируется глобальное понимание изображения, а потом выстраивается логический порядок чтения.

    Плюсы:

    • Отлично справляется со сложными макетами, таблицами, подписями и структурированным текстом
    • На ряде бенчмарков обходит Gemini Pro
    • Можно запускать локально и дообучать через Unsloth

    Минусы:

    • Размер модели 3B → выше требования к GPU для высокочастотного инференса

    Лицензия: Apache 2.0 Ссылки: Hugging Face | Документация


    2. Step3-VL-10B

    🌟 Step3-VL-10B от Stepfun.ai - пример компактной, но "жирной" VLM. Всего 10B параметров, но она претендует на соперничество с моделями в 10-20 раз больше, включая Gemini 2.5 Pro и GLM-4.6V.

    Особенности:

    • Визуальный энкодер 1.8B + Qwen3-8B декодер
    • Обучение на 1.2 трлн токенов с RLVR+RLHF
    • Высокие результаты по OCRBench и бенчмаркам математических задач

    Минусы:

    • Для топовых цифр PaCoRe = 16 параллельных роллаутов → x16 вычислительных ресурсов
    • OCR - лишь часть возможностей, основное - VLM

    Лицензия: Apache 2.0 Ссылки: vLLM / OpenAI-compatible API


    3. PaddleOCR-VL-1.5

    🐼 PaddleOCR-VL-1.5 - компактная модель (0.9B), оптимизированная под "полевые" условия. Кривые сканы, бликовые фото и мятые страницы - модель учли это в обучении.

    Особенности:

    • OmniDocBench v1.5 - 94.5% точности
    • Text spotting, распознавание печатей, склейка таблиц между страницами
    • Поддержка редких языков, тибетского и бенгальского
    • Простая интеграция через transformers, Docker и Paddle

    Минусы:

    • Рукописный текст пока плохо
    • Постраничный разбор через transformers ограничен

    Лицензия: Apache 2.0 Ссылки: Hugging Face | GitHub


    4. GLM-OCR

    📄 GLM-OCR - мультимодальная OCR-модель на 0.9B параметров. Основана на GLM-V с CogViT визуальным энкодером и GLM-0.5B декодером. Поддерживает layout analysis через PP-DocLayout-V3 и параллельное распознавание.

    Плюсы:

    • OmniDocBench v1.5 - 94.62% (#1)
    • Поддержка таблиц, формул, печатей и code-heavy документов
    • Инференс быстрый: vLLM / SGLang / Ollama
    • SDK и простая интеграция, open-source

    Минусы:

    • JSON schema для Information Extraction требует строгого соблюдения

    Лицензия: MIT (layout - Apache 2.0) Ссылки: Hugging Face | GitHub


    Сравнительная таблица

    МодельПараметрыОсновной фокусБенчмаркOCR / Doc scoreЛицензияДеплой
    DeepSeek-OCR 23BOCR + структураOCRBench+4% к v1, обходит Gemini ProApache 2.0HF, Unsloth
    Step3-VL-10B10BУниверсальная VLMOCRBench86.75Apache 2.0vLLM, OpenAI-API
    PaddleOCR-VL-1.50.9BOCR в полеOmniDocBench v1.594.5Apache 2.0Paddle, Docker
    GLM-OCR0.9BOCR + IEOmniDocBench v1.594.62 (#1)MITvLLM, SGLang, Ollama

    Итоги

    • По OmniDocBench лидеры: GLM-OCR (94.62%) и PaddleOCR-VL-1.5 (94.5%)
    • Самые лёгкие и быстрые для продакшн: PaddleOCR-VL-1.5 и GLM-OCR
    • Самые "умные" архитектурно: DeepSeek-OCR 2 с DeepEncoder V2
    • Самая универсальная VLM: Step3-VL-10B (OCR лишь часть возможностей)

    OCR и VLM достигли зрелости, позволяя внедрять распознавание документов в реальные продакшн-сценарии: от таблиц и формул до многостраничных PDF с кодом и печатями. Гонка за скорость, точность и "понимание" документов продолжается.


    📚 Читайте также