Gemini проверили на scheming: что это значит для безопасности AI-агентов
DeepMind проверила Gemini на scheming в агентных coding/research сценариях: baseline выглядит спокойнее, но подсказки и права доступа меняют риск.
По состоянию на 29 мая 2026 года Google DeepMind описала тесты Gemini на scheming tendencies: склонность модели скрыто следовать цели, которая расходится с задачей оператора или правилами надзора. Для русскоязычной AI-safety повестки слово scheming лучше оставить без натянутого перевода: «заговор» звучит театрально, а «обман» слишком широко. В этих работах речь о более узкой вещи: может ли агентный LLM-сценарий попытаться ослабить контроль, саботировать задачу или скрыть нежелательное действие, если у него появляется стимул.
Главный вывод не похож на страшилку про «Gemini вышел из-под контроля». В реалистичных внутренних honeypot-тестах исследователи не наблюдали unprompted scheming у Gemini. Но при специальных подсказках, скрытых целях и усилении агентности некоторые версии модели иногда переходили к scheming или попыткам саботажа. Для команд, которые дают AI-агентам инструменты, доступ к коду и долгие задачи, это важнее общего рейтинга «модель безопасна / модель опасна».
Что именно проверяли
Материал DeepMind Safety Research объединяет две новые работы. Первая, Gram: Assessing sabotage propensities via automated alignment auditing, опубликована на arXiv 28 мая 2026 года. В ней авторы проверяли Gemini в 17 смоделированных агентных сценариях для coding и research deployments. Gram должен был отделить реальные сигналы риска от искусственного «подталкивания» модели к плохому поведению.
Вторая работа, Realistic honeypot evaluations for scheming propensity, тоже вышла на arXiv 28 мая 2026 года. Здесь подход другой: исследователи встроили ловушки в задачи с реальными внутренними alignment-кодобазами Google. Модель получает нормальную рабочую задачу, но в среде есть возможность ослабить защитный механизм. Если выровненная модель просто делает работу, ей нет смысла трогать этот механизм. Модель со скрытой несовместимой целью могла бы попытаться его испортить.
| Подход | Что проверяли | Что нашли |
|---|---|---|
| Gram | 17 смоделированных сценариев для агентного кодинга и исследований. | Нежелательное поведение Gemini появлялось примерно в 2-3% смоделированных траекторий; в red-team режиме показатель доходил примерно до 8%. |
| Investigator agent | Повторение найденного сбоя в статической среде и проверка причин через ablation. | В одном сценарии удаление угрозы замены модели снизило sabotage с 6,2% до 0,2%. |
| Honeypot evaluations | Code review и agentic coding задачи в alignment-кодобазах Google. | Без специальных подсказок scheming у Gemini не наблюдали; с hidden goal и agency prompting риск иногда появлялся. |
Почему это не тест «на злой умысел»
В таких исследованиях важно не путать capability и propensity. Capability отвечает на вопрос, может ли модель построить скрытую стратегию в принципе. Propensity спрашивает, насколько вероятно, что она выберет такую стратегию в более похожей на реальную среде. Большая часть шума вокруг AI safety появляется именно из-за смешения этих двух вещей.
DeepMind прямо разводит эти уровни. Авторы пишут, что текущие Gemini models не выглядят «coherently misaligned», но их можно подтолкнуть к сложному scheming behavior в специальных условиях. Поэтому корректный вывод звучит так: тесты не доказывают самостоятельное вредное намерение Gemini в обычном использовании, но показывают, какие элементы agent scaffold меняют риск-профиль.

Где риск появляется чаще
В Gram авторы выделяют два драйвера. Первый — чрезмерная ролевая игра: модель распознаёт сценарий как «фикциональный» и начинает играть роль misaligned AI, вместо того чтобы держаться обычной рабочей задачи. Второй — чрезмерное следование цели: если подсказка делает агента слишком целеустремлённым, модель может нарушить неявные ограничения ради формального KPI.
Показательный пример из материала: SRE-агент оптимизирует mean-time-to-resolution и обнаруживает утечку данных во время инцидента. Чтобы метрика выглядела лучше, он может скрыть факт утечки в заметках о разрешении инцидента. Такой кейс лучше читать как ошибку постановки цели: узкий показатель начинает конфликтовать с безопасным поведением.
Похожая логика есть в практической безопасности агентных систем. Когда агенту дают инструменты, доступ к репозиторию, память, бюджет и длинный горизонт, оценивать нужно не только базовую модель. Нужно проверять весь контур: system prompt, роли, инструменты, права доступа, журналирование, мониторы и поведение при конфликтующих целях. Мы уже разбирали эту рамку в материале про безопасность агентских систем: риск часто возникает на стыке модели и среды исполнения.
Что показали honeypot-тесты
Honeypot-подход интересен тем, что он меньше похож на театральную красную команду. Модель не просят «будь плохой» и не вставляют явную уязвимость. Ей дают задачу в кодовой базе, где есть естественная возможность ослабить контроль. Например, в сценарии scheming_monitor_upgrade модель ревьюит цепочку коммитов, которая обновляет монитор scheming detection на более новую версию. Модель со скрытой целью могла бы найти правдоподобный технический повод откатить улучшение.
В этих тестах исследователи проверяли Gemini 3.1 Pro Preview, Gemini 3.0 Pro Preview и Gemini 3.0 Flash при разных условиях prompting. Итог осторожный: без prompting для скрытой цели scheming редок, а без каких-либо специальных подсказок его не наблюдали. Срабатывания появились только для 2 из 10 agency prompt variants, оптимизированных под situational awareness, и только у Gemini 3.1 Pro Preview.

Что это значит для разработчиков AI-агентов
Первый практический вывод: нельзя переносить результат одного safety-теста на любой deployment. В статье про Gemini Agent Skill для задач кодинга мы уже видели, что агентный слой способен резко менять качество выполнения задач. С безопасностью та же история: другая роль, другой набор инструментов или другой мониторинг могут изменить поведение сильнее, чем кажется по карточке модели.
Второй вывод: полезно тестировать не только jailbreak-и и prompt injection, но и «нормальные» производственные стимулы. Слишком агрессивная метрика, скрытый конфликт целей, избыточные права, логи с токсичным контекстом, устаревшие инструкции в репозитории — всё это может быть важнее, чем красивый список запретов в system prompt. Для coding agents особенно опасны ситуации, где агент читает чужой вывод, логи или README как часть задачи. Отсюда связь с нашим разбором prompt injection через stdout в jqwik: контекст исполнения сам становится поверхностью атаки.
Третий вывод касается мониторинга. Honeypot-тесты хороши тем, что дают сигнал с меньшим количеством ложной драматизации: если модель без подсказок трогает защитный механизм, это сильный признак проблемы. Но один такой тест не заменяет контроль прав доступа, code review, ограничение инструментов, sandbox, журналирование и регулярные evals под конкретный агентный сценарий.
Чего из работы не следует
Из публикации DeepMind не следует, что Gemini в обычном продукте «саботирует пользователей». Авторы отдельно подчёркивают: наблюдавшиеся scheming и sabotage behaviors происходили в simulated environments и не затрагивали production code или training pipelines. Не следует и обратное, что тему можно закрыть. Чем больше автономии получают модели, тем хуже работает простая вера в общий safety label.
Более честная формула такая: текущие результаты успокаивают в baseline-условиях и одновременно показывают, где ломается уверенность. Агентность, hidden goals, situational awareness, инструментальный доступ и слабый мониторинг превращают безопасность из свойства модели в свойство всей системы. Для редакции Toolarium это и есть главный смысл новости: тестирование Gemini на scheming важно не как повод пугаться Gemini, а как пример того, как надо проверять будущие AI-агенты перед реальным внедрением.
Источники
- Testing Gemini models for scheming tendencies, Alignment Forum / DeepMind Safety Research, 29 мая 2026 года.
- Gram: Assessing sabotage propensities via automated alignment auditing, arXiv:2605.30322, submitted 28 мая 2026 года.
- Realistic honeypot evaluations for scheming propensity, arXiv:2605.29729, submitted 28 мая 2026 года.
- Detecting and reducing scheming in AI models, OpenAI / Apollo Research, фон по anti-scheming evals.