безопасность

ExploitBench и автономные AI-эксплойты: где риск реален

Новый бенчмарк ExploitBench показывает, где ИИ-агенты останавливаются на пути от V8 crash к настоящему exploit chain.

Факт-чек: данные в статье проверены 16 мая 2026 года по The Decoder, arXiv-препринту ExploitBench и репозиторию Google v8CTF.

Тема «ExploitBench и автономные AI-эксплойты» звучит как готовый кликбейт про ИИ, который уже взламывает браузеры. Новый бенчмарк Carnegie Mellon University показывает более полезную вещь: где ИИ-агент останавливается на пути от известного V8-бага к настоящей цепочке эксплуатации.

Crash и exploit — разные уровни риска. Агент может дойти до уязвимой строки, собрать proof of concept и уронить процесс, но так и не получить примитивы чтения и записи памяти, не обойти песочницу V8 и не выполнить произвольный код. Для защитников такая разметка полезнее одного бинарного результата «нашёл / не нашёл».

The Decoder 16 мая обратил внимание на самый острый результат: непубличная исследовательская модель Anthropic Mythos Preview сильно обгоняет публичные модели, включая GPT-5.5. Но если вынести Mythos в заголовок, получится повтор соседнего кластера про кибертесты Claude. Здесь важнее сам ExploitBench: он показывает, как измерять автономные AI-эксплойты без того, чтобы считать любой crash победой.

Что проверяет ExploitBench

ExploitBench описан в препринте “A Capability Ladder Benchmark for LLM Cybersecurity Agents” авторов Seunghyun Lee и David Brumley. В работе берут 41 уязвимость V8, все из 2024 года или позже, и дают агентам сценарий N-day: патч уже известен, эталонного proof of concept нет.

V8 выбран не для красоты. Это движок JavaScript и WebAssembly, который используется в Chrome, Edge, Node.js и Chromium-браузерах. Тест идёт с включённой V8 heap sandbox, ASLR, stack canaries и другими защитами. Агент работает не на игрушечной программе и не на отключённых защитах, а на приближённой к боевой конфигурации.

ExploitBench раскладывает эксплуатацию на 16 проверяемых флагов: от покрытия кода и crash до примитивов памяти, контроля потока и ACE. Источник: arXiv / Lee, Brumley.

Лестница состоит из 16 флагов в пяти уровнях. Внизу покрытие патченных строк и воспроизведение бага. Выше — V8-специфичные примитивы вроде object-to-pointer и pointer-to-object. Ещё выше — общие примитивы за границей песочницы: infoleak, arbitrary read и arbitrary write. Верхний уровень — контроль instruction pointer и arbitrary code execution, сокращённо ACE.

Методика держится на детерминированных oracle-проверках. Авторы не просят другую LLM решить, «получился ли эксплойт». Грейдер сам проверяет coverage, differential execution, AddressSanitizer, challenge-response для примитивов и отдельные проверки для контроля потока и ACE. Так агент не получает зачёт за красивое объяснение или случайный обход условий.

Проверенные цифры

Параметр	Что заявлено	Источник
Дата препринта	arXiv v1: 13 мая 2026 года; PDF датирован 15 мая 2026 года	arXiv
Корпус задач	41 V8-баг, все не раньше 2024 года	ExploitBench paper
Шкала оценки	16 проверяемых флагов в пяти уровнях: coverage, triggering, target-specific primitives, general primitives, pc control / ACE	ExploitBench paper
Бюджет	300 turns (ходов) на независимый запуск; ключевая метрика — best-of-three union по каждой ячейке	ExploitBench paper
Матрица эксперимента	2 337 эпизодов: 41 баг × модели/режимы × три seed-запуска	ExploitBench paper
V8-практический контекст	Google v8CTF — exploit VRP для V8; валидный exploit должен извлечь flag из инфраструктуры v8CTF	Google security-research / v8CTF

Где остановились публичные модели

Авторы тестировали девять передовых моделей: восемь публично доступных и одну непубличную исследовательскую preview-модель Anthropic Mythos Preview. Среди публичных моделей были GPT-5.5, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5, Gemini 3.1 Pro, GLM 5.1, Kimi K2.6 и MiniMax M2.7.

Результат публичных моделей сдержаннее, чем может показаться по заголовкам. Почти все умеют дойти до патченного кода. Несколько моделей строят engine-local primitives. Но в основном режиме primary arm только GPT-5.5 поднимается выше Tier 3: он достигает Tier 2 на двух WebAssembly-багах и pc control на одном. В primary arm ни одна публичная модель не доходит до ACE.

Единственный публичный ACE появляется в отдельном режиме vendor-CLI: GPT-5.5 через Codex CLI закрывает цепочку на одном баге, v8-cve-2024-2887, на 165-м ходе и со стоимостью $17.80 для этого seed-запуска. Для практического риска это неприятная поправка: атакующий не обязан запускать «голую» модель, он будет использовать удобный CLI, обвязку и контекст-менеджмент. Масштаб результата всё равно одна ячейка «модель × баг», а не массовое автономное взламывание V8.

Таблица результатов ExploitBench: публичные модели в основном застревают до ACE, а Mythos Preview достигает ACE на 18 из 41 бага в primary arm. Источник: arXiv / Lee, Brumley.

Gemini 3.1 Pro в этой таблице выглядит сильным по ширине Tier 3: 16 багов в primary arm. Opus 4.7 и Sonnet 4.6 доходят до Tier 3 на 12 и 10 багах соответственно. Но эти модели не переходят к Tier 2, где уже нужны примитивы за границей V8 heap sandbox. Это и есть главный водораздел: crash и внутренний примитив ещё не равны рабочей цепочке exploitation.

Что меняет Mythos Preview

Непубличный Anthropic Mythos Preview в том же primary arm достигает ACE на 18 из 41 бага и pc control на тех же 18. На 21 ячейке «модель × баг» он доходит как минимум до Tier 2. Это контрольная точка, полученная по collaboration agreement, а не релизная функция Claude. Его стоит читать как индикатор движения границы возможностей, а не как доступный инструмент для любого пользователя.

Стоимость тоже показывает, что результат не бесплатный. В таблице 1 средняя стоимость эпизода primary arm для Mythos Preview указана как $203.93, для GPT-5.5 — $51.40, для режима Codex CLI — около $10 за эпизод. The Decoder дополнительно пишет, что полный прогон Mythos оказался больше чем на порядок дороже GPT-5.5. В любом случае вывод один: стоимость и лимиты провайдера становятся частью оценки риска, а не внешней деталью.

Для русскоязычного читателя рядом стоят две темы. В материале про Claude Mythos в кибертестах AISI речь шла о том, как старые safety-evals перестают различать новые capabilities. ExploitBench даёт более тонкую линейку для exploit development. Новость про первый zero-day exploit с признаками AI-assisted разработки показывает, почему такой бенчмарк нужен уже не только исследователям.

Почему crash больше не хватает

Старые бенчмарки часто засчитывали успех по факту crash или sanitizer-сигнала. Для web-уязвимостей это иногда достаточно: SQL injection или SSRF часто имеют понятный конечный эффект. Для браузерного движка это слишком грубо. В V8 путь от crash до произвольного кода проходит через память, песочницу, ASLR, layout, JIT-семантику и контроль потока.

ExploitBench поэтому полезен как язык для защитной приоритизации. Если агент за 50 turns воспроизводит crash, это один приоритет. Если он строит caged read/write, это другой приоритет. Если он переходит к arbitrary read/write за границей песочницы, это уже сигнал, что уязвимость близка к weaponization. Такой сигнал по ступеням лучше простого «PoC работает».

Работа не доказывает, что публичные модели сегодня массово создают готовые браузерные эксплойты. Условия контролируемые: известный N-day, патч в prompt, зафиксированные V8-сборки, закрытый harness. Авторы отдельно пишут, что не оценивают weaponization и reliability: полезный payload, обход EDR, поведение на неизвестной версии сборки и перенос в реальную операцию остаются за рамками.

Риск для команд безопасности

Самый практичный вывод для security-команд: публичные модели уже помогают пройти нижние ступени N-day exploitation, но главная опасная граница пока проходит выше crash. Если в отчёте о баге агент быстро доходит до Tier 3, такой баг нельзя ставить в ту же очередь, что и обычный crash. Если инструмент добирается до Tier 2 или pc control, патчинг и mitigations должны ускоряться.

Второй вывод касается инструментальной связки. Codex CLI не превращает GPT-5.5 в Mythos, но закрывает один флаг на одном баге и снижает стоимость и время в сравнении с bare-model runner. Для атакующего это имеет значение: реальные пользователи не работают с моделью в вакууме. Они берут CLI, контекст-менеджмент, shell, сборку, отладчик и повторяют попытки.

Третий вывод касается публикации деталей. ExploitBench сам по себе dual-use: он помогает и защите, и атакующей автоматизации. Поэтому при пересказе работы важнее объяснять уровни риска, а не превращать статью в набор воспроизводимых exploit-шагов. В этом тексте намеренно нет payload-кода, команд для сборки эксплойта и пошаговых цепочек атаки.

Что это значит для автономных AI-эксплойтов

ExploitBench делает разговор про автономные AI-эксплойты менее истеричным и более неприятным. Публичные модели в primary arm ещё не демонстрируют стабильный ACE на V8. Непубличная модель на границе возможностей проходит ту же лестницу на 18 из 41 бага в тех же условиях и в том же 300-turn бюджете.

Любой чат-бот завтра не начнёт автономно ломать Chrome. Но лестница уже построена, верхние ступени достижимы для сильной модели, а публичные модели постепенно подтягиваются снизу. Защитникам пора оценивать ИИ-риск в безопасности не только по crash reproduction, а по примитивам, которые агент реально доказывает.

Ближайшая практическая польза ExploitBench — не паника, а более точная triage-карта. С её помощью можно отличать «модель нашла вход в баг» от «модель почти собрала exploit chain». В 2026 году эта разница уже стоит времени инженеров, денег на bounty и скорости патча.

ExploitBench и автономные AI-эксплойты: где риск реален

Что проверяет ExploitBench

Проверенные цифры

Где остановились публичные модели

Что меняет Mythos Preview

Почему crash больше не хватает

Риск для команд безопасности

Что это значит для автономных AI-эксплойтов

Читайте также

Источники

Похожие статьи

Meta отключила Instagram-функцию для AI-дипфейков: что случилось

AI-агенты атакуют AI-агентов: защитники используют prompt injection против hacking agents

ИИ-железо OpenAI: почему иск Apple опасен для устройства Альтмана и Айва

Ghostcommit: prompt injection через PNG и AGENTS.md