LLM

Специализированные малые модели против frontier API: что показал DharmaOCR

Кейс DharmaOCR: когда специализированная малая модель рациональнее frontier API для узкой enterprise-задачи.

Факт-чек: данные проверены 27 мая 2026 года по публикации Dharma AI на Hugging Face, статье arXiv:2604.14314, карточке DharmaOCR Lite на Hugging Face и официальному посту Dharma AI.

Специализированные малые модели против frontier API - уже не теоретический спор о размере. 22 мая 2026 года Dharma AI опубликовала разбор DharmaOCR: 3B-модель для structured OCR в их бенчмарке обошла GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro и другие коммерческие API по качеству извлечения текста. По оценке авторов, в этой постановке DharmaOCR Lite была примерно в 52 раза дешевле Claude Opus 4.6.

Главная мысль осторожнее: frontier API остаются сильным вариантом для широких задач, но не должны автоматически выигрывать закупку. Если задача узкая, повторяемая и хорошо измеряется на данных компании, покупка самого крупного API по умолчанию может быть дорогой привычкой. Для enterprise-команд это вопрос закупки: что именно тестировать перед контрактом, какие метрики считать и когда fine-tuning LLM окупается.

Что проверяла Dharma AI

DharmaOCR - это пара специализированных малых моделей для structured OCR: Full на 7B параметров и Lite на 3B. Они извлекают текст из изображений документов в JSON-структуру с отдельными полями для основного текста, шапки, подвала и полей страницы.

В arXiv-работе от 15 апреля 2026 года команда описывает собственный DharmaOCR-Benchmark: 496 документов, в основном на бразильском португальском, включая печатные, рукописные, юридические и административные материалы. 413 примеров взяты из уже известных датасетов, ещё 83 документа команда вручную собрала из публичных источников, преимущественно юридических.

Это важное ограничение. Результат нельзя напрямую переносить на русские договоры, медицинские формы или англоязычные счета. Но он хорошо показывает инженерную мысль: модель надо сравнивать не по общему престижу поставщика, а по качеству на конкретной рабочей выборке.

DharmaOCR описывает путь от универсальных multimodal-моделей к OCR-специалисту для бразильских юридических и административных документов. Источник: arXiv.

Главные цифры бенчмарка

В таблице ниже собраны только проверенные числа из arXiv и карточки DharmaOCR Lite. Коммерческие API в исходной таблице не имеют времени на страницу и относительной стоимости, потому что их внутренняя инфраструктура недоступна; для сравнения стоимости авторы использовали публичные цены API и отдельно предупреждают, что выбор GPU и настройки vLLM влияют на расчёт локальных моделей.

Система	Score	Degeneration rate	Время / страница	Что важно
DharmaOCR Full, 7B, SFT + DPO + Quant	0.925	0.40%	2.132 с	Лучший score среди evaluated systems в итоговой конфигурации
DharmaOCR Lite, 3B, SFT + DPO + Quant	0.911	0.20%	1.464 с	Минимальная degeneration rate и низкая относительная стоимость
Claude Opus 4.6	0.833	-	-	Лучший коммерческий baseline в таблице DharmaOCR
Gemini 3.1 Pro	0.820	-	-	Второй commercial frontier API в таблице
GPT-5.4	0.750	-	-	Заметно ниже DharmaOCR на этом OCR-бенчмарке
Google Document AI	0.640	-	-	Специализированный коммерческий OCR baseline

Разница между 0.911 и 0.833 может выглядеть небольшой, если смотреть только на строки. В закупке она становится крупнее, когда добавляются стабильность вывода и стоимость массовой обработки страниц. Авторы отдельно пишут, что DharmaOCR Lite в их расчёте примерно в 52 раза дешевле Claude Opus 4.6 при более высоком качестве на этом бенчмарке.

Нюанс с числами по Lite лучше не терять. В таблице arXiv есть 3B-вариант SFT + DPO со score 0.921, но итоговая quantized-конфигурация, которую карточка модели подаёт как DharmaOCR Lite, указана со score 0.911, временем 1.464 секунды на страницу и degeneration rate 0.20%. В статье мы используем именно эту более осторожную цифру.

Почему scale перестаёт быть единственным аргументом

Большая модель сильнее там, где задачу нельзя заранее сузить: сложное рассуждение, непредсказуемый диалог, широкий поиск по знаниям, смешанные форматы. OCR корпоративных документов часто устроен иначе. Есть типы страниц, ожидаемый формат ответа, набор допустимых ошибок и возможность собрать контрольную выборку.

Dharma AI использовала привычный набор приёмов: supervised fine-tuning для строгого JSON-формата, Direct Preference Optimization для борьбы с повторяющимися сбоями и AWQ-квантизацию для снижения стоимости. В arXiv авторы заявляют, что DPO снижал text degeneration по семействам моделей до 87.6% относительно предыдущего шага, а квантизация уменьшила стоимость на страницу до 22% при небольшой потере качества.

Для бизнеса это меняет вопрос. Раньше безопасной покупкой казался самый сильный API: меньше риска, меньше инженерной работы, быстрее запуск. Кейс DharmaOCR показывает другой маршрут: сначала построить собственный бенчмарк, затем проверить frontier API, open-source baselines и специализированную малую модель на одинаковых документах, а после этого считать стоимость страницы и стабильность результата.

Degeneration - не академическая мелочь

В OCR-сценарии модель должна не красиво рассуждать, а стабильно возвращать структуру. Text degeneration ломает эту задачу: модель зацикливается на токене или фразе, ответ растёт, очередь инференса забивается, стоимость повышается.

Авторы DharmaOCR отдельно измеряют text degeneration, потому что повторяющиеся ответы повышают задержку, расход GPU и стоимость. Источник: arXiv.

В приложении к статье авторы показывают, что здоровые запросы, выполнявшиеся рядом с активным degenerate-запросом, занимали как минимум на 15% больше времени; в одном из наборов разница превышала 71%. Это хороший пример метрики, которую легко упустить в обычном сравнении score. Модель может иметь приемлемое среднее качество, но редкие зацикливания всё равно портят throughput и стоимость.

Когда малая специализированная модель рациональнее

Кейс DharmaOCR стоит читать как проверочный список, а не как рецепт «заменить все API локальной моделью». Специализированная малая модель становится интересной, когда выполняются четыре условия.

Задача повторяется в большом объёме: документы, заявки, формы, тикеты, карточки товаров.
Есть эталонная выборка, на которой можно честно мерить качество, формат, задержку и стоимость.
Ошибки можно формализовать: пропущенное поле, неверный порядок текста, сломанный JSON, повтор.
Команда готова поддерживать модель: данные, дообучение, мониторинг, rollout и fallback на внешний API.

Если этих условий нет, frontier API часто остаётся нормальным выбором. Он быстрее даёт прототип, лучше закрывает широкий набор задач и снимает часть инфраструктурной работы. Более того, в самой работе Dharma крупные модели использовались на этапе разметки данных: Claude Sonnet 4, llama-4-maverick и Gemini 2.5 Pro помогали извлекать исходные метки, после чего качество проверялось выборочно человеком.

Практичная стратегия строится как матрица решений. Для общего ассистента, поиска гипотез и сложных разовых задач берём frontier API. Для массового узкого пайплайна с понятной метрикой проверяем специализированную модель. Для спорных случаев считаем оба варианта на одних данных.

Что это значит для закупки ИИ

Procurement-команде теперь мало сравнить прайс-листы и публичные бенчмарки. Нужен маленький внутренний экзамен для поставщиков и моделей. В него стоит включить не только accuracy, но и долю сломанного JSON, повторяющиеся ответы, p95 latency, стоимость тысячи документов, частоту fallback и цену ручной проверки.

Это пересекается с тем, когда fine-tuning LLM оправдан: дообучение имеет смысл не ради красивого эксперимента, а когда экономия и качество на повторяемой задаче перекрывают стоимость данных, обучения и эксплуатации. Соседний пример мы уже разбирали в статье про специализированную модель, которая обогнала GPT-5.4 и Claude. Общая рамка выбора между своим контуром и внешним API описана в материале про открытые модели и закрытые API.

Для русскоязычных компаний главный вывод приземлённый. DharmaOCR не доказывает, что 3B-модель готова обрабатывать ваши российские договоры лучше Claude или GPT. Она доказывает, что такую гипотезу стоит проверять. Если у вас десятки тысяч однотипных документов в месяц, собственный benchmark может сэкономить больше денег, чем переговоры о скидке на API.

Чеклист для команды

Соберите 200-500 реальных примеров задачи, которую хотите автоматизировать.
Зафиксируйте формат ответа и ошибки, которые для бизнеса неприемлемы.
Прогоните один frontier API, один специализированный коммерческий сервис и один open-source baseline.
Считайте не только score, но и стоимость, p95 latency, повторы, сломанный формат и ручные исправления.
Проверьте, сколько данных и времени нужно, чтобы дообучить узкую модель до уровня API.
Оставьте fallback: специализированная модель должна уметь отдавать сложные случаи более сильной системе.

DharmaOCR интересен именно как bounded case. В одном хорошо измеренном OCR-домене специализация, DPO и квантизация оказались важнее размера модели. Для следующих задач это не ответ, а рабочая гипотеза: прежде чем платить за самый большой API, проверьте, не выигрывает ли узкая модель на ваших данных.

Источники

Hugging Face / Dharma AI: Specialization Beats Scale, опубликовано 22 мая 2026 года, проверено 27 мая 2026 года.
arXiv: DharmaOCR: Specialized Small Language Models for Structured OCR, submitted 15 апреля 2026 года, проверено 27 мая 2026 года.
arXiv HTML: таблицы и изображения DharmaOCR, проверено 27 мая 2026 года.
Hugging Face: DharmaOCR Lite model card, проверено 27 мая 2026 года.
Dharma AI: Dharma OCR, опубликовано 15 апреля 2026 года, проверено 27 мая 2026 года.

Специализированные малые модели против frontier API: что показал DharmaOCR

Что проверяла Dharma AI

Главные цифры бенчмарка

Почему scale перестаёт быть единственным аргументом

Degeneration - не академическая мелочь

Когда малая специализированная модель рациональнее

Что это значит для закупки ИИ

Чеклист для команды

Читайте также

Источники

Похожие статьи

Наделла о distillation: кто зарабатывает на AI-данных

AgenticSTS: структурированная память AI-агентов вместо длинного контекста

Databricks GLM 5.2: почему AI-кодинг считают по задаче

Террористические группы используют ИИ-чатботы: что это значит для безопасности ИИ