Pollux-4B-Judge: зачем русскому LLM-судье 4B параметров

Sber AI выложил Pollux-4B-Judge — открытую 4B-модель для оценки русскоязычных LLM. Разбираем метрики, сценарии применения и ограничения.

Pollux-4B-Judge на GitHub: репозиторий POLLUX с кодом и README для оценки русскоязычных LLM

По состоянию на 27 мая 2026 года Sber AI выложил Pollux-4B-Judge - открытую 4B-модель для оценки ответов русскоязычных LLM. Это узкий инструмент для команд, которые хотят измерять качество ответов по явным критериям: корректность, полнота, безопасность, соответствие контексту, стиль или любая своя рубрика.

Pollux-4B-Judge стоит читать спокойнее, чем это обычно делают в релизных заголовках. Для русского языка появился специализированный LLM-as-a-Judge, который можно запускать локально, подключать к OpenAI-совместимому API и использовать в регулярных проверках качества LLM-продукта. Для RAG, поддержки, агентных сценариев и A/B-тестов промптов это уже инфраструктурная деталь.

Карточка Hugging Face модели Pollux-4B-Judge с тегами qwen3, Russian и MIT license
Карточка Pollux-4B-Judge на Hugging Face: модель указана как text-generation, Russian, qwen3, MIT license и 4B params. Скриншот проверен 27 мая 2026 года. Источник: Hugging Face.

Что именно выпустил Sber AI

Pollux-4B-Judge - decoder-based модель на базе Qwen/Qwen3-4B. В model card указано, что она принимает исходную инструкцию, ответ другой модели, критерий оценки, шкалу и, если он есть, эталонный ответ. На выходе ожидаются числовая оценка и текстовое объяснение.

Это важно: Pollux не пытается сам угадать, что считать хорошим ответом. В карточке модели прямо написано, что оптимальный режим - один заранее заданный критерий за один прогон. Попытка оценивать сразу несколько критериев или поручить модели самой выбирать рубрики выходит за рамки intended use и может дать непредсказуемые результаты.

Свежий Habr-релиз привязывает 4B-модель к более широкому проекту POLLUX: таксономии русскоязычных задач, датасету экспертных оценок, семейству более ранних judge-моделей 7B и 32B и коду на GitHub. В этой точке нужна редакционная оговорка.

В Habr-релизе для актуального описания названы 152 типа генеративных задач, 58 критериев, 2 115 инструкций, 150 000 оценок с комментариями и дообучение новой 4B-модели на 100 000 экспертных оценок. В карточках датасета и GitHub README встречаются другие агрегированные числа для широкого проекта POLLUX: 2 100 инструкций, 471 515 individual point estimates, 161 076 consolidated estimates и 66 критериев. Поэтому не смешиваем их в одну строку: для новости о 4B-модели опираемся на релиз, а для фона по проекту - на карточки POLLUX.

Зачем нужен отдельный судья для русского языка

Оценивать LLM старым способом плохо получается даже на простых задачах. BLEU, ROUGE и похожие метрики ловят совпадение слов, но плохо видят смысл. Семантические метрики лучше, но тоже могут пропустить отрицание или фактическую ошибку. В продукте это быстро превращается в ручную проверку: разработчики и редакторы смотрят на ответы глазами, спорят о шкале и не могут воспроизвести результат через неделю.

LLM-as-a-Judge решает не всю проблему, а конкретную её часть. Команда формулирует критерий и шкалу, модель-судья прогоняет сотни или тысячи ответов и возвращает оценку с объяснением. Это особенно полезно там, где правильного ответа в одну строку нет: поддержка клиентов, генерация текста, RAG по документам, проверка безопасности, оценка траекторий агентов.

Для русскоязычных продуктов здесь есть отдельный слой. Универсальная GPT-, Claude- или Gemini-модель может быть сильной, но без локальной калибровки она оценивает русский ответ через свою историю обучения, свои предпочтения к стилю и свои смещения. Pollux не отменяет сильные закрытые модели, но даёт открытый и более контролируемый слой оценки именно под русский язык. Если вы ещё выбираете базовую LLM для продукта, сначала полезно пройти общий разбор как выбрать языковую модель под задачу, а уже потом решать, чем измерять её качество.

Что показывают заявленные метрики

Авторы проверяли Pollux-4B-Judge на out-of-domain части бенчмарка в 50 000 примеров: эти типы задач и критерии специально не входили в обучение модели. Эталоном были экспертные оценки, а сравнение шло по RMSE, macro F1 и корреляции Спирмена.

Модель RMSE ↓ macro F1 ↑ Спирмен ↑
Pollux-4B-Judge 0,568 0,705 0,744
Qwen/Qwen3.5-397B-A17B 0,600 0,481 0,684
Minimax-M2.5 (229B) 0,651 0,617 0,635
gpt-oss-120b 0,654 0,462 0,635
Pollux-32B-Judge-Base 0,700 0,546 0,578

Источник таблицы - Habr-релиз Sber AI и model card Pollux-4B-Judge на Hugging Face, проверено 27 мая 2026 года.

Эти цифры стоит читать аккуратно. Они не доказывают, что Pollux лучше любой большой модели на любой оценочной задаче. Они показывают, что на заявленном out-of-domain тесте специализированный 4B-судья ближе воспроизводил экспертные оценки, чем перечисленные в таблице универсальные и более крупные модели. Для инженерной команды это хороший сигнал, но не освобождение от собственной проверки на своих данных.

Где Pollux может быть полезен

Первый практичный сценарий - онлайн-мониторинг качества. Если чат поддержки отвечает на тысячи русскоязычных запросов, одних жалоб пользователей мало. Pollux можно запускать как дополнительный сигнал: оценивать релевантность, безопасность, тон, полноту и отслеживать, где новая версия промпта или модели стала хуже.

Второй сценарий - RAG. Здесь мало проверить, что ответ звучит уверенно. Нужно понять, не противоречит ли он источнику, отвечает ли на вопрос, не придумывает ли факты и не теряет ли важные условия из контекста. Habr-релиз показывает пример с отдельными критериями faithfulness и correctness. В русскоязычных корпоративных базах знаний это часто важнее, чем общий рейтинг модели на публичном leaderboard.

Третий сценарий - агентные системы. В них качество лежит не только в финальном ответе, но и в траектории: какие инструменты вызвал агент, не нарушил ли правила процесса, не ушёл ли в лишние действия. Pollux можно использовать как один из проверочных слоёв для таких траекторий, особенно если критерии и шкалы заранее написаны под конкретный workflow. Об ограничениях самих бенчмарков и leaderboard-логики мы отдельно писали в материале про то, почему 100% на бенчмарке ИИ-агентов не всегда значит способность.

Четвёртый сценарий - A/B-тесты промптов и моделей. Если команда сравнивает две версии системного промпта, ей нужно не одно красивое демо, а серия одинаковых прогонов по одинаковой рубрике. Тут judge-модель полезна именно своей повторяемостью. Она не делает оценку абсолютно объективной, но снижает ручной шум и помогает быстрее увидеть регрессию.

Ограничения, которые нельзя прятать

Страница arXiv статьи Eye of Judgement про POLLUX benchmark для оценки русскоязычных LLM
Статья Eye of Judgement на arXiv описывает POLLUX как benchmark и семейство LLM-as-a-Judge моделей для русского языка. Скриншот проверен 27 мая 2026 года. Источник: arXiv.

Pollux остаётся языковой моделью. В model card прямо сказано, что её ответы вероятностны, могут содержать ошибки, смещения или неподходящий контент, а пользователь сам отвечает за проверку результата. Это нормальная оговорка для LLM, но для judge-модели она особенно важна: если судья ошибается систематически, ошибка попадает в метрики продукта и начинает управлять решениями команды.

Поэтому Pollux лучше использовать как слой измерения, а не как единственный источник истины. Нужна калибровка на собственных примерах, периодическая человеческая проверка, контроль межсудейского согласия и раздельные критерии вместо одного абстрактного «качества». Для рискованных доменов - медицина, финансы, право, безопасность - одна judge-модель не заменяет эксперта и не должна автоматически пропускать ответы в прод.

Есть и методологический риск. Если команда обучает или подбирает модель под один и тот же judge, она может оптимизироваться под вкус этого judge, а не под реальное качество для пользователя. Поэтому полезно держать несколько независимых проверок: Pollux для русскоязычной рубрики, выборочную человеческую разметку, продуктовые метрики и, при необходимости, другой LLM-судья для сравнения. Близкая проблема есть и в классических бенчмарках: мы разбирали её на примере бенчмарка независимости LLM, где важно не путать измерение поведения с полной картиной качества.

Как попробовать

В Habr-релизе и model card предложен запуск через vLLM и OpenAI-совместимый сервер. Минимальный путь выглядит так:

pip install vllm==0.19.0
pip install transformers==5.3.0
pip install openai

vllm serve ai-forever/Pollux-4B-Judge \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3

После этого к локальному серверу можно обращаться через клиент OpenAI, передавая инструкцию, ответ, критерий и шкалу. Авторы Habr-релиза пишут, что модель помещается в один GPU на 16 ГБ. Для продовой проверки всё равно стоит отдельно замерить задержку, стоимость инференса и стабильность формата ответа на вашей инфраструктуре.

Если у вас уже есть open-source контур, Pollux логично положить рядом с другими открытыми моделями и проверочными скриптами. В выборе такого контура поможет наш материал про open-source модели для своего стека: judge-модель редко живёт отдельно от базовой LLM, RAG-хранилища, логов и пайплайна тестирования.

Что это значит для русскоязычных команд

Pollux-4B-Judge интересен не как громкий релиз Сбера, а как симптом взросления русскоязычной LLM-инфраструктуры. Сначала команды спорили, какая модель пишет красивее. Потом начали сравнивать цены, контекст и скорость. Следующий слой - воспроизводимая оценка качества на своих задачах, своих критериях и своих данных.

Здесь у Pollux есть понятная ниша. Он не заменяет GPT, Claude, Gemini, GigaChat или YandexGPT. Он помогает измерять, как эти модели отвечают на русском и где они ломаются. Для команд, которые строят ассистентов, RAG-системы, агентные процессы или внутренние инструменты на русском языке, это может оказаться полезнее очередного общего leaderboard.

Хороший практический вывод простой: не надо сразу верить заявленным метрикам и не надо сразу списывать модель из-за размера 4B. Возьмите 200-500 своих реальных запросов, напишите 3-5 критериев, прогоните текущую модель, сравните с ручной оценкой и посмотрите, где Pollux совпадает с людьми, а где нет. Если корреляция держится, у вас появляется дешёвый регулярный тест качества. Если нет, вы всё равно получите полезный набор критериев и ошибок, вокруг которых можно строить нормальную оценку LLM.

Читайте также

Источники и дата проверки

Telegram-канал @toolarium