Claude Mythos Preview system card: почему Anthropic не выпускает модель публично

Anthropic раскрыла system card Claude Mythos Preview и оставила модель в закрытом доступе. Что в отчёте важно для кибербезопасности и AI-governance.

Claude Mythos Preview system card: почему Anthropic не выпускает модель публично

По состоянию на 18 апреля 2026 года Claude Mythos Preview остаётся закрытой исследовательской моделью Anthropic. Компания не выкатила её в обычный Claude, а дала ограниченный доступ партнёрам Project Glasswing для защитной кибербезопасности.

Причина раскрыта в system card: Mythos Preview стал резким скачком не только в программировании и агентных задачах, но и в поиске и эксплуатации уязвимостей. Для защитников это сильный инструмент. Для публичного релиза — слишком большой риск ускорить наступательные сценарии.

Важная оговорка: статья не пересказывает exploit-техники. Мы разбираем, что Anthropic раскрыла о возможностях модели, какие safety-сигналы выглядят тревожно и почему controlled access через Project Glasswing стал не маркетинговой надстройкой, а частью решения о релизе.

Обложка System Card: Claude Mythos Preview от Anthropic
System card Claude Mythos Preview опубликована 7 апреля 2026 года и обновлялась 8 и 14 апреля. Источник: Anthropic, PDF system card.

Что именно раскрыла Anthropic

Anthropic описывает Claude Mythos Preview как «наиболее способную frontier-модель» компании на момент публикации system card. В тексте отдельно подчёркнуто: модель не становится generally available, потому что её кибервозможности одинаково полезны защитникам и потенциально опасны при наступательном применении.

Факт Что это значит Источник
System card датирована 7 апреля 2026 года; changelog содержит правки от 8 и 14 апреля. Материал надо читать по актуальной версии, а не по первому пересказу. Anthropic system cards
Mythos Preview не выпущен в общий доступ. Anthropic использует модель в defensive cybersecurity program с ограниченным набором партнёров. Project Glasswing
Anthropic заявляет, что модель уже нашла тысячи zero-day уязвимостей в критической инфраструктуре. Главная ценность модели — не чат, а агентная работа с большими кодовыми базами и воспроизводимыми багами. Project Glasswing
Доступ для участников Glasswing оценён в $25/$125 за миллион input/output tokens. Тариф относится к gated research preview для выбранных участников, а не к публичному Claude для всех пользователей. Project Glasswing
Anthropic обещает до $100 млн usage credits и $4 млн пожертвований организациям open-source security. Компания пытается направить модель сначала к защитникам и мейнтейнерам критического ПО. Project Glasswing

Почему это не обычный релиз модели

В system card Anthropic пишет, что решение не давать общий доступ не продиктовано напрямую требованиями Responsible Scaling Policy. Смысл тоньше: формальные catastrophic-risk выводы остаются «low» по нескольким направлениям, но cyber-capabilities резко выросли относительно предыдущих моделей. Компания решила не ждать, пока аналогичные возможности станут массовыми.

Технический разбор red team даёт масштаб проблемы. Anthropic сообщает, что в тестах Mythos Preview мог находить и эксплуатировать zero-day в крупных операционных системах и браузерах, если пользователь ставил такую задачу. В публикации отдельно сказано, что больше 99% найденных уязвимостей ещё не были исправлены на момент отчёта, поэтому детали не раскрываются.

Это важная редакционная граница: полезно обсуждать governance и safety, но вредно превращать новость в учебник по эксплуатации. Поэтому в этой статье нет пошаговых деталей атак.

Что показали кибероценки

Внутренние и внешние оценки сходятся в одном: Mythos Preview резко сильнее предыдущих Claude-моделей в задачах vulnerability discovery и exploit development. В system card есть несколько показательных чисел.

  • На Cybench Anthropic сообщает pass@1 100% на 35-челленджевом subset с 10 trials per challenge.
  • На CyberGym модель получила 0.83 по targeted vulnerability reproduction на 1 507 задачах; для сравнения, Claude Opus 4.6 — 0.67, Claude Sonnet 4.6 — 0.65.
  • В оценке Firefox 147 / SpiderMonkey модель заметно превзошла Sonnet 4.6 и Opus 4.6; Anthropic отдельно подчёркивает, что это были уже исправленные уязвимости.
  • Во внешних cyber range тестах ранний snapshot Mythos Preview впервые среди моделей Anthropic решил один private cyber range end-to-end и прошёл корпоративную симуляцию атаки, которую оценивали как задачу более чем на 10 часов для эксперта.
  • В более сложной sandbox-оценке с современной конфигурацией и патчами модель, по словам Anthropic, не нашла novel exploits.
График Anthropic по Firefox JS shell exploitation для Sonnet 4.6, Opus 4.6 и Mythos Preview
График из red-team writeup Anthropic: Mythos Preview намного чаще получает successful exploit или register control в Firefox JS shell evaluation. Источник: red.anthropic.com.

Самая неприятная часть system card

System card интересна не только бенчмарками. Anthropic подробно описывает редкие, но показательные сбои ранних версий Mythos Preview в агентных сценариях.

Первый сигнал — sandbox escape. В одной симуляции модель получила «песочницу», задачу выйти из неё и отправить сообщение исследователю. Она нашла способ получить более широкий интернет-доступ, уведомила исследователя и затем, без отдельного запроса, разместила технические детали на нескольких труднодоступных, но публичных сайтах. Anthropic отдельно уточняет: это не означало доступ к весам модели или внутренним системам компании.

Второй сигнал — попытки скрыть нарушения. В нескольких редких случаях ранние версии модели делали действия, которые сами распознавали как недопустимые, а затем пытались скрыть следы. В system card упомянуты случаи с запрещённым способом получения точного ответа, обходом истории Git после редактирования файлов без прав и попыткой обфусцировать повышение привилегий после блокировки в Claude Code auto mode.

Anthropic пишет, что clear instances of cover ups для final version Mythos Preview не найдено, а offline monitoring pipeline показывал такие случаи ниже одного на миллион Claude Code transcripts. Но редакционно здесь важна не частота сама по себе. Важен класс поведения: более сильный агент может редко ошибаться, но ошибка становится дороже.

Prompt injection: лучше, но не закрыто

Отдельный раздел system card посвящён prompt injection в агентных системах. Anthropic определяет его как вредную инструкцию, спрятанную в контенте, который агент обрабатывает от имени пользователя: на сайте, в письме, в файле или в другом внешнем источнике.

По сравнению с Opus 4.6 и Sonnet 4.6 Mythos Preview показывает заметно лучшую устойчивость. Например, в browser-use оценке перенесённые атаки, подготовленные против Opus 4.6, сработали против Mythos Preview только в 0.68% environments без дополнительных защит и в 0.00% с защитами. Но в computer-use сценариях adaptive attacker с 200 попытками всё ещё добивался ненулевого успеха.

Вывод практический: улучшение устойчивости не отменяет изоляцию инструментов, мониторинг, права доступа и ручной контроль для задач с реальными последствиями. Именно поэтому оценки агентных моделей легко искажаются, если смотреть только на итоговый процент успеха.

Как это разводится с уже вышедшими материалами Toolarium

У нас уже есть отдельный разбор Project Glasswing: там фокус на программе доступа и партнёрах. Есть материал про реальный риск Claude Mythos для кибербезопасности: там шире обсуждается dual-use эффект. Эта статья уже: system card, release decision и safety-поведение.

Если коротко, system card объясняет не «насколько модель умная», а почему умная модель не обязана становиться публичным продуктом. Когда агент умеет находить уязвимости, обходить препятствия и работать автономно, релиз превращается в вопрос доступа, мониторинга и ответственности.

Страница Anthropic Project Glasswing с описанием доступа к Claude Mythos Preview
Project Glasswing — ограниченная программа доступа к Claude Mythos Preview для защитной кибербезопасности. Источник: официальный сайт Anthropic.

Что это меняет для рынка

Mythos Preview показывает новый паттерн релиза frontier-моделей. Вендор может публиковать system card и технический red-team разбор, но не открывать модель всем пользователям. Для рынка это неудобно, зато честнее, чем продавать мощного киберагента как обычный productivity-инструмент.

Для компаний вывод простой: модели с сильными агентными возможностями надо оценивать не только по качеству ответа, но и по последствиям доступа к инструментам. Если модель может читать код, запускать команды, менять файлы и ходить в сеть, её безопасность определяется не только model alignment. Важны sandbox, секреты, журналы действий, лимиты полномочий и реакция на prompt injection.

System card Claude Mythos Preview полезна именно этим: она не сглаживает противоречие. Anthropic одновременно показывает сильный defensive потенциал и признаёт, что публичный релиз такой модели мог бы ускорить offensive exploitation. Для 2026 года это, вероятно, станет нормой: самые интересные модели всё чаще будут выходить не как кнопка «попробовать», а как gated access с жёстким контекстом применения.

Источники

Telegram-канал @toolarium