ExploitBench и автономные AI-эксплойты: где риск реален

Новый бенчмарк ExploitBench показывает, где ИИ-агенты останавливаются на пути от V8 crash к настоящему exploit chain.

Обложка The Decoder к материалу про ExploitBench и автономные AI-эксплойты

Факт-чек: данные в статье проверены 16 мая 2026 года по The Decoder, arXiv-препринту ExploitBench и репозиторию Google v8CTF.

Тема «ExploitBench и автономные AI-эксплойты» звучит как готовый кликбейт про ИИ, который уже взламывает браузеры. Новый бенчмарк Carnegie Mellon University показывает более полезную вещь: где ИИ-агент останавливается на пути от известного V8-бага к настоящей цепочке эксплуатации.

Crash и exploit — разные уровни риска. Агент может дойти до уязвимой строки, собрать proof of concept и уронить процесс, но так и не получить примитивы чтения и записи памяти, не обойти песочницу V8 и не выполнить произвольный код. Для защитников такая разметка полезнее одного бинарного результата «нашёл / не нашёл».

The Decoder 16 мая обратил внимание на самый острый результат: непубличная исследовательская модель Anthropic Mythos Preview сильно обгоняет публичные модели, включая GPT-5.5. Но если вынести Mythos в заголовок, получится повтор соседнего кластера про кибертесты Claude. Здесь важнее сам ExploitBench: он показывает, как измерять автономные AI-эксплойты без того, чтобы считать любой crash победой.

Что проверяет ExploitBench

ExploitBench описан в препринте “A Capability Ladder Benchmark for LLM Cybersecurity Agents” авторов Seunghyun Lee и David Brumley. В работе берут 41 уязвимость V8, все из 2024 года или позже, и дают агентам сценарий N-day: патч уже известен, эталонного proof of concept нет.

V8 выбран не для красоты. Это движок JavaScript и WebAssembly, который используется в Chrome, Edge, Node.js и Chromium-браузерах. Тест идёт с включённой V8 heap sandbox, ASLR, stack canaries и другими защитами. Агент работает не на игрушечной программе и не на отключённых защитах, а на приближённой к боевой конфигурации.

Фрагмент статьи ExploitBench с описанием лестницы возможностей для автономных AI-эксплойтов
ExploitBench раскладывает эксплуатацию на 16 проверяемых флагов: от покрытия кода и crash до примитивов памяти, контроля потока и ACE. Источник: arXiv / Lee, Brumley.

Лестница состоит из 16 флагов в пяти уровнях. Внизу покрытие патченных строк и воспроизведение бага. Выше — V8-специфичные примитивы вроде object-to-pointer и pointer-to-object. Ещё выше — общие примитивы за границей песочницы: infoleak, arbitrary read и arbitrary write. Верхний уровень — контроль instruction pointer и arbitrary code execution, сокращённо ACE.

Методика держится на детерминированных oracle-проверках. Авторы не просят другую LLM решить, «получился ли эксплойт». Грейдер сам проверяет coverage, differential execution, AddressSanitizer, challenge-response для примитивов и отдельные проверки для контроля потока и ACE. Так агент не получает зачёт за красивое объяснение или случайный обход условий.

Проверенные цифры

Параметр Что заявлено Источник
Дата препринта arXiv v1: 13 мая 2026 года; PDF датирован 15 мая 2026 года arXiv
Корпус задач 41 V8-баг, все не раньше 2024 года ExploitBench paper
Шкала оценки 16 проверяемых флагов в пяти уровнях: coverage, triggering, target-specific primitives, general primitives, pc control / ACE ExploitBench paper
Бюджет 300 turns (ходов) на независимый запуск; ключевая метрика — best-of-three union по каждой ячейке ExploitBench paper
Матрица эксперимента 2 337 эпизодов: 41 баг × модели/режимы × три seed-запуска ExploitBench paper
V8-практический контекст Google v8CTF — exploit VRP для V8; валидный exploit должен извлечь flag из инфраструктуры v8CTF Google security-research / v8CTF

Где остановились публичные модели

Авторы тестировали девять передовых моделей: восемь публично доступных и одну непубличную исследовательскую preview-модель Anthropic Mythos Preview. Среди публичных моделей были GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5, Gemini 3.1 Pro, GLM 5.1, Kimi K2.6 и MiniMax M2.7.

Результат публичных моделей сдержаннее, чем может показаться по заголовкам. Почти все умеют дойти до патченного кода. Несколько моделей строят engine-local primitives. Но в основном режиме primary arm только GPT-5.5 поднимается выше Tier 3: он достигает Tier 2 на двух WebAssembly-багах и pc control на одном. В primary arm ни одна публичная модель не доходит до ACE.

Единственный публичный ACE появляется в отдельном режиме vendor-CLI: GPT-5.5 через Codex CLI закрывает цепочку на одном баге, v8-cve-2024-2887, на 165-м ходе и со стоимостью $17.80 для этого seed-запуска. Для практического риска это неприятная поправка: атакующий не обязан запускать «голую» модель, он будет использовать удобный CLI, обвязку и контекст-менеджмент. Масштаб результата всё равно одна ячейка «модель × баг», а не массовое автономное взламывание V8.

Таблица результатов ExploitBench по моделям Mythos Preview, GPT-5.5, Gemini и Claude
Таблица результатов ExploitBench: публичные модели в основном застревают до ACE, а Mythos Preview достигает ACE на 18 из 41 бага в primary arm. Источник: arXiv / Lee, Brumley.

Gemini 3.1 Pro в этой таблице выглядит сильным по ширине Tier 3: 16 багов в primary arm. Opus 4.7 и Sonnet 4.6 доходят до Tier 3 на 12 и 10 багах соответственно. Но эти модели не переходят к Tier 2, где уже нужны примитивы за границей V8 heap sandbox. Это и есть главный водораздел: crash и внутренний примитив ещё не равны рабочей цепочке exploitation.

Что меняет Mythos Preview

Непубличный Anthropic Mythos Preview в том же primary arm достигает ACE на 18 из 41 бага и pc control на тех же 18. На 21 ячейке «модель × баг» он доходит как минимум до Tier 2. Это контрольная точка, полученная по collaboration agreement, а не релизная функция Claude. Его стоит читать как индикатор движения границы возможностей, а не как доступный инструмент для любого пользователя.

Стоимость тоже показывает, что результат не бесплатный. В таблице 1 средняя стоимость эпизода primary arm для Mythos Preview указана как $203.93, для GPT-5.5 — $51.40, для режима Codex CLI — около $10 за эпизод. The Decoder дополнительно пишет, что полный прогон Mythos оказался больше чем на порядок дороже GPT-5.5. В любом случае вывод один: стоимость и лимиты провайдера становятся частью оценки риска, а не внешней деталью.

Для русскоязычного читателя рядом стоят две темы. В материале про Claude Mythos в кибертестах AISI речь шла о том, как старые safety-evals перестают различать новые capabilities. ExploitBench даёт более тонкую линейку для exploit development. Новость про первый zero-day exploit с признаками AI-assisted разработки показывает, почему такой бенчмарк нужен уже не только исследователям.

Почему crash больше не хватает

Старые бенчмарки часто засчитывали успех по факту crash или sanitizer-сигнала. Для web-уязвимостей это иногда достаточно: SQL injection или SSRF часто имеют понятный конечный эффект. Для браузерного движка это слишком грубо. В V8 путь от crash до произвольного кода проходит через память, песочницу, ASLR, layout, JIT-семантику и контроль потока.

ExploitBench поэтому полезен как язык для защитной приоритизации. Если агент за 50 turns воспроизводит crash, это один приоритет. Если он строит caged read/write, это другой приоритет. Если он переходит к arbitrary read/write за границей песочницы, это уже сигнал, что уязвимость близка к weaponization. Такой сигнал по ступеням лучше простого «PoC работает».

Работа не доказывает, что публичные модели сегодня массово создают готовые браузерные эксплойты. Условия контролируемые: известный N-day, патч в prompt, зафиксированные V8-сборки, закрытый harness. Авторы отдельно пишут, что не оценивают weaponization и reliability: полезный payload, обход EDR, поведение на неизвестной версии сборки и перенос в реальную операцию остаются за рамками.

Риск для команд безопасности

Самый практичный вывод для security-команд: публичные модели уже помогают пройти нижние ступени N-day exploitation, но главная опасная граница пока проходит выше crash. Если в отчёте о баге агент быстро доходит до Tier 3, такой баг нельзя ставить в ту же очередь, что и обычный crash. Если инструмент добирается до Tier 2 или pc control, патчинг и mitigations должны ускоряться.

Второй вывод касается инструментальной связки. Codex CLI не превращает GPT-5.5 в Mythos, но закрывает один флаг на одном баге и снижает стоимость и время в сравнении с bare-model runner. Для атакующего это имеет значение: реальные пользователи не работают с моделью в вакууме. Они берут CLI, контекст-менеджмент, shell, сборку, отладчик и повторяют попытки.

Третий вывод касается публикации деталей. ExploitBench сам по себе dual-use: он помогает и защите, и атакующей автоматизации. Поэтому при пересказе работы важнее объяснять уровни риска, а не превращать статью в набор воспроизводимых exploit-шагов. В этом тексте намеренно нет payload-кода, команд для сборки эксплойта и пошаговых цепочек атаки.

Что это значит для автономных AI-эксплойтов

ExploitBench делает разговор про автономные AI-эксплойты менее истеричным и более неприятным. Публичные модели в primary arm ещё не демонстрируют стабильный ACE на V8. Непубличная модель на границе возможностей проходит ту же лестницу на 18 из 41 бага в тех же условиях и в том же 300-turn бюджете.

Любой чат-бот завтра не начнёт автономно ломать Chrome. Но лестница уже построена, верхние ступени достижимы для сильной модели, а публичные модели постепенно подтягиваются снизу. Защитникам пора оценивать ИИ-риск в безопасности не только по crash reproduction, а по примитивам, которые агент реально доказывает.

Ближайшая практическая польза ExploitBench — не паника, а более точная triage-карта. С её помощью можно отличать «модель нашла вход в баг» от «модель почти собрала exploit chain». В 2026 году эта разница уже стоит времени инженеров, денег на bounty и скорости патча.

Читайте также

Источники

Telegram-канал @toolarium