безопасность

Claude Mythos и открытые модели: где граница

Спор вокруг Mythos показывает не смерть закрытых frontier-моделей, а сдвиг преимущества к проверке, triage и рабочему процессу security-команд.

Claude Mythos и открытые модели снова попали в одну историю, но вывод здесь тоньше, чем «малые модели догнали Anthropic». 18 апреля 2026 года The Decoder собрал две независимые репликации: AISLE и Vidoc показали, что публичные модели уже воспроизводят часть публичных Mythos-кейсов. Это уточняет наш разбор открытых моделей ИИ в кибербезопасности. Теперь важна граница: модель может увидеть баг в подготовленном фрагменте, а автономный поиск, проверка и эксплуатация остаются отдельной задачей.

По состоянию на 18 апреля 2026 года картина такая: Mythos остаётся закрытой моделью в Project Glasswing, но часть публичных доказательств уже проверяют снаружи. Простая реклама любого лагеря тут не работает. Закрытая модель сохраняет смысл. Открытая или публично доступная модель пока не превращается в автономного хакера. Зато резко растёт значение процесса вокруг модели.

Vidoc тестировала GPT-5.4 и Claude Opus 4.6 в открытом агентном окружении opencode. Источник: Vidoc Security Lab

Почему это не отменяет Mythos

У Anthropic всё ещё есть сильный аргумент: компания описывает не только распознавание подозрительного кода, а полный путь до воспроизводимых эксплойтов. В описании Project Glasswing Anthropic называет Claude Mythos Preview своей самой сильной моделью для разработки и агентных задач, а доступ к ней даёт только через закрытый research preview. Там же указана цена для участников Glasswing: $25 за миллион входных токенов и $125 за миллион выходных токенов.

Независимая оценка британского AI Security Institute тоже не выглядит как пиар без содержания. AISI пишет, что Mythos Preview показал 73% успеха на экспертных CTF-задачах. В 32-шаговой симуляции корпоративной атаки «The Last Ones» модель прошла сценарий от начала до конца в 3 попытках из 10 и в среднем закрывала 22 шага из 32. Ближайшая модель, Claude Opus 4.6, в среднем проходила 16 шагов.

У AISI есть важная оговорка: такие диапазоны легче настоящих сетей. В них нет активных защитников, защитного инструментария и штрафов за действия, которые в реальной компании подняли бы тревогу. Корректный вывод уже: Mythos способен автономно атаковать слабозащищённые уязвимые среды, если ему дали сетевой доступ. Про хорошо защищённые системы этого сказать нельзя.

Что показали AISLE и Vidoc

AISLE разбила AI-security на отдельные этапы: сканирование большого репозитория, поиск подозрительного участка, анализ конкретной функции, проверка exploitability, исправление и, отдельно, построение рабочего эксплойта. В её тестах часть задач действительно перестала выглядеть эксклюзивом закрытой модели. Например, в FreeBSD NFS-кейсе все восемь проверенных моделей нашли проблему в изолированной функции. Полный автономный аудит репозитория AISLE этим не доказывала.

Самая полезная часть разбора AISLE — неровность результатов. На OpenBSD SACK GPT-OSS-120b восстановил публичную цепочку и предложил близкое к реальному исправление, а Qwen3 32B уверенно решил, что вектора атаки нет. В повторном тесте patched FreeBSD только GPT-OSS-120b три раза из трёх корректно распознал исправленную версию как безопасную. GPT-OSS-20b, Kimi K2 и DeepSeek R1 три раза из трёх продолжали видеть фантомную уязвимость.

Таблица AISLE показывает jagged frontier: одна и та же модель может быть сильной на FreeBSD и провалиться на OpenBSD SACK или patched-тесте. Источник: AISLE

Vidoc пришла к похожему выводу другим путём. Команда взяла публичные patched-примеры из материалов Anthropic, запустила GPT-5.4 и Claude Opus 4.6 в open-source агенте opencode и прогнала стандартизированный security-review процесс. По их таблице обе модели точно воспроизвели FreeBSD в 3 из 3 попыток и Botan в 3 из 3. OpenBSD точно воспроизвёл только Claude Opus 4.6, тоже 3 из 3; GPT-5.4 не воспроизвёл этот кейс ни разу. FFmpeg и wolfSSL остались частичными результатами, а не точной репликацией. Стоимость сканирования одного файла, по данным Vidoc, оставалась ниже $30.

Граница проходит не по бренду модели

Источники не складываются в лестницу «открытые модели хуже, закрытые лучше». Скорее это рваная карта навыков. Одни модели хорошо замечают классический memory bug в подготовленном фрагменте. Другие лучше держат тонкую логику состояния. Третьи находят настоящую проблему, но плохо отличают исправленный код от уязвимого.

Сигнал	Что он значит	Где ограничение
AISLE: 8 моделей нашли FreeBSD NFS bug	Detection на выбранной функции уже доступен шире, чем кажется из релиза Mythos.	Полного поиска по репозиторию и готового exploit chain здесь не было.
Vidoc: GPT-5.4 и Opus 4.6 точно воспроизвели FreeBSD и Botan	Публичные модели уже работают в открытом агентном процессе на реальных patched-кейсах.	FFmpeg и wolfSSL остались частичными, а OpenBSD не дался GPT-5.4.
AISI: Mythos прошёл TLO в 3 из 10 попыток	Закрытая модель сильна на многошаговом автономном сценарии, а не только на статическом анализе.	Сценарий легче настоящей сети: нет активных защитников и защитных инструментов.

Поэтому спор «открытые против закрытых» быстро становится слишком грубым. Для защитника важнее другой вопрос: можно ли превратить модельный сигнал в отчёт, которому поверит мейнтейнер. Здесь решают скучные вещи: воспроизводимый стенд, логи команд, повторные прогоны, тест на patched-коде, ручная проверка impact и нормальная коммуникация с проектом.

Что делать security-командам

Первое: не ждать доступа к Mythos как магической кнопки. Anthropic в своём техническом разборе прямо советует защитникам уже сейчас учиться использовать доступные frontier-модели для поиска уязвимостей и выстраивать процедуры вокруг них. Это совпадает с выводами AISLE и Vidoc: преимущество смещается в обвязку, проверку и приоритизацию.

Второе: разделять этапы. Подозрительный код даёт только повод для проверки. Объяснение root cause ещё не рабочий эксплойт. Proof-of-concept в лабораторной среде ещё не доказывает применимость против защищённой production-системы.

Третье: проверять specificity так же жёстко, как sensitivity. Модель, которая всегда видит баг, может быть вреднее молчаливой модели, если она заваливает мейнтейнеров ложными срабатываниями. Тест на patched-версии должен стать обычной частью процесса, а не дополнительной роскошью.

Как читать эту историю дальше

Для Toolarium это короткое продолжение, а не новая статья «открытые модели победили Mythos». Такой материал уже есть, и SEO-brief справедливо запрещает занимать тот же кластер второй раз. Здесь фокус другой: публичные модели уже заходят на территорию, которую ещё неделю назад было удобно описывать как gated frontier. Чем ближе они подходят, тем заметнее инженерия процесса.

Системную сторону Mythos мы отдельно разбирали в статье про Claude Mythos Preview system card, а доступ через Glasswing — в материале про Anthropic Project Glasswing. Здесь короткий вывод: закрытые модели всё ещё могут быть впереди в автономной эксплуатации и длинных цепочках. Но базовый анализ уязвимостей перестаёт быть редким ресурсом. Редким ресурсом становится доверие к результату.

Claude Mythos и открытые модели: где граница

Почему это не отменяет Mythos

Что показали AISLE и Vidoc

Граница проходит не по бренду модели

Что делать security-командам

Как читать эту историю дальше

Источники

Похожие статьи

AI-увольнения Meta: иск о скоринге сотрудников

Риски AI-инфраструктуры: дата-центры, токены и безопасность LLM

Meta отключила Instagram-функцию для AI-дипфейков: что случилось

AI-агенты атакуют AI-агентов: защитники используют prompt injection против hacking agents