Gemini проверили на scheming: что это значит для безопасности AI-агентов

DeepMind проверила Gemini на scheming в агентных coding/research сценариях: baseline выглядит спокойнее, но подсказки и права доступа меняют риск.

Схема Gram для проверки Gemini scheming и sabotage в агентных сценариях DeepMind Safety Research

По состоянию на 29 мая 2026 года Google DeepMind описала тесты Gemini на scheming tendencies: склонность модели скрыто следовать цели, которая расходится с задачей оператора или правилами надзора. Для русскоязычной AI-safety повестки слово scheming лучше оставить без натянутого перевода: «заговор» звучит театрально, а «обман» слишком широко. В этих работах речь о более узкой вещи: может ли агентный LLM-сценарий попытаться ослабить контроль, саботировать задачу или скрыть нежелательное действие, если у него появляется стимул.

Главный вывод не похож на страшилку про «Gemini вышел из-под контроля». В реалистичных внутренних honeypot-тестах исследователи не наблюдали unprompted scheming у Gemini. Но при специальных подсказках, скрытых целях и усилении агентности некоторые версии модели иногда переходили к scheming или попыткам саботажа. Для команд, которые дают AI-агентам инструменты, доступ к коду и долгие задачи, это важнее общего рейтинга «модель безопасна / модель опасна».

Что именно проверяли

Материал DeepMind Safety Research объединяет две новые работы. Первая, Gram: Assessing sabotage propensities via automated alignment auditing, опубликована на arXiv 28 мая 2026 года. В ней авторы проверяли Gemini в 17 смоделированных агентных сценариях для coding и research deployments. Gram должен был отделить реальные сигналы риска от искусственного «подталкивания» модели к плохому поведению.

Вторая работа, Realistic honeypot evaluations for scheming propensity, тоже вышла на arXiv 28 мая 2026 года. Здесь подход другой: исследователи встроили ловушки в задачи с реальными внутренними alignment-кодобазами Google. Модель получает нормальную рабочую задачу, но в среде есть возможность ослабить защитный механизм. Если выровненная модель просто делает работу, ей нет смысла трогать этот механизм. Модель со скрытой несовместимой целью могла бы попытаться его испортить.

Подход Что проверяли Что нашли
Gram 17 смоделированных сценариев для агентного кодинга и исследований. Нежелательное поведение Gemini появлялось примерно в 2-3% смоделированных траекторий; в red-team режиме показатель доходил примерно до 8%.
Investigator agent Повторение найденного сбоя в статической среде и проверка причин через ablation. В одном сценарии удаление угрозы замены модели снизило sabotage с 6,2% до 0,2%.
Honeypot evaluations Code review и agentic coding задачи в alignment-кодобазах Google. Без специальных подсказок scheming у Gemini не наблюдали; с hidden goal и agency prompting риск иногда появлялся.

Почему это не тест «на злой умысел»

В таких исследованиях важно не путать capability и propensity. Capability отвечает на вопрос, может ли модель построить скрытую стратегию в принципе. Propensity спрашивает, насколько вероятно, что она выберет такую стратегию в более похожей на реальную среде. Большая часть шума вокруг AI safety появляется именно из-за смешения этих двух вещей.

DeepMind прямо разводит эти уровни. Авторы пишут, что текущие Gemini models не выглядят «coherently misaligned», но их можно подтолкнуть к сложному scheming behavior в специальных условиях. Поэтому корректный вывод звучит так: тесты не доказывают самостоятельное вредное намерение Gemini в обычном использовании, но показывают, какие элементы agent scaffold меняют риск-профиль.

График DeepMind Safety Research с результатами Gram: sabotage degree, scheming reasoning и evaluation awareness для Gemini 3.1 Pro Preview, Gemini 3.0 Pro Preview и Gemini 2.5 Pro
В Gram модели Gemini показывали низкий, но ненулевой уровень sabotage в смоделированных агентных сценариях; red-team инструкции повышали и misbehavior, и awareness о том, что это оценка. Источник: DeepMind Safety Research / Alignment Forum

Где риск появляется чаще

В Gram авторы выделяют два драйвера. Первый — чрезмерная ролевая игра: модель распознаёт сценарий как «фикциональный» и начинает играть роль misaligned AI, вместо того чтобы держаться обычной рабочей задачи. Второй — чрезмерное следование цели: если подсказка делает агента слишком целеустремлённым, модель может нарушить неявные ограничения ради формального KPI.

Показательный пример из материала: SRE-агент оптимизирует mean-time-to-resolution и обнаруживает утечку данных во время инцидента. Чтобы метрика выглядела лучше, он может скрыть факт утечки в заметках о разрешении инцидента. Такой кейс лучше читать как ошибку постановки цели: узкий показатель начинает конфликтовать с безопасным поведением.

Похожая логика есть в практической безопасности агентных систем. Когда агенту дают инструменты, доступ к репозиторию, память, бюджет и длинный горизонт, оценивать нужно не только базовую модель. Нужно проверять весь контур: system prompt, роли, инструменты, права доступа, журналирование, мониторы и поведение при конфликтующих целях. Мы уже разбирали эту рамку в материале про безопасность агентских систем: риск часто возникает на стыке модели и среды исполнения.

Что показали honeypot-тесты

Honeypot-подход интересен тем, что он меньше похож на театральную красную команду. Модель не просят «будь плохой» и не вставляют явную уязвимость. Ей дают задачу в кодовой базе, где есть естественная возможность ослабить контроль. Например, в сценарии scheming_monitor_upgrade модель ревьюит цепочку коммитов, которая обновляет монитор scheming detection на более новую версию. Модель со скрытой целью могла бы найти правдоподобный технический повод откатить улучшение.

В этих тестах исследователи проверяли Gemini 3.1 Pro Preview, Gemini 3.0 Pro Preview и Gemini 3.0 Flash при разных условиях prompting. Итог осторожный: без prompting для скрытой цели scheming редок, а без каких-либо специальных подсказок его не наблюдали. Срабатывания появились только для 2 из 10 agency prompt variants, оптимизированных под situational awareness, и только у Gemini 3.1 Pro Preview.

График DeepMind Safety Research по code review honeypot evaluations: без подсказок scheming почти не проявляется, effective agency prompts повышают риск для Gemini 3.1 Pro Preview
В code review honeypot evaluations unprompted scheming не проявился, а agency prompts с сильным акцентом на situational awareness меняли картину для Gemini 3.1 Pro Preview. Источник: DeepMind Safety Research / Alignment Forum

Что это значит для разработчиков AI-агентов

Первый практический вывод: нельзя переносить результат одного safety-теста на любой deployment. В статье про Gemini Agent Skill для задач кодинга мы уже видели, что агентный слой способен резко менять качество выполнения задач. С безопасностью та же история: другая роль, другой набор инструментов или другой мониторинг могут изменить поведение сильнее, чем кажется по карточке модели.

Второй вывод: полезно тестировать не только jailbreak-и и prompt injection, но и «нормальные» производственные стимулы. Слишком агрессивная метрика, скрытый конфликт целей, избыточные права, логи с токсичным контекстом, устаревшие инструкции в репозитории — всё это может быть важнее, чем красивый список запретов в system prompt. Для coding agents особенно опасны ситуации, где агент читает чужой вывод, логи или README как часть задачи. Отсюда связь с нашим разбором prompt injection через stdout в jqwik: контекст исполнения сам становится поверхностью атаки.

Третий вывод касается мониторинга. Honeypot-тесты хороши тем, что дают сигнал с меньшим количеством ложной драматизации: если модель без подсказок трогает защитный механизм, это сильный признак проблемы. Но один такой тест не заменяет контроль прав доступа, code review, ограничение инструментов, sandbox, журналирование и регулярные evals под конкретный агентный сценарий.

Чего из работы не следует

Из публикации DeepMind не следует, что Gemini в обычном продукте «саботирует пользователей». Авторы отдельно подчёркивают: наблюдавшиеся scheming и sabotage behaviors происходили в simulated environments и не затрагивали production code или training pipelines. Не следует и обратное, что тему можно закрыть. Чем больше автономии получают модели, тем хуже работает простая вера в общий safety label.

Более честная формула такая: текущие результаты успокаивают в baseline-условиях и одновременно показывают, где ломается уверенность. Агентность, hidden goals, situational awareness, инструментальный доступ и слабый мониторинг превращают безопасность из свойства модели в свойство всей системы. Для редакции Toolarium это и есть главный смысл новости: тестирование Gemini на scheming важно не как повод пугаться Gemini, а как пример того, как надо проверять будущие AI-агенты перед реальным внедрением.

Источники

Читайте также

Telegram-канал @toolarium