Anthropic

Anthropic Project Glasswing: почему Mythos держат в закрытом доступе

Anthropic оставила Mythos внутри Project Glasswing и не выпустила модель в паблик. Разбираем причины и последствия для AI-безопасности.

Anthropic не стала открывать Claude Mythos широкой публике. Вместо обычного релиза компания 7 апреля 2026 года запустила Anthropic Project Glasswing — закрытую программу для защитников, поставщиков инфраструктуры и крупных технологических компаний. Это не маркетинговый ход и не красивое переименование раннего доступа. По собственным тестам Anthropic, Mythos Preview уже умеет находить и эксплуатировать zero-day уязвимости в каждой крупной операционной системе и каждом крупном браузере.

Для рынка это важный сигнал. Самые сильные модели больше не обсуждают только в категориях «лучше пишет код» или «длиннее контекст». Их начинают ограничивать как инструмент двойного назначения: он полезен защитникам, но слишком опасен, если попадёт в руки атакующих без ограничений.

По состоянию на 8 апреля 2026 года Mythos доступна только в закрытом исследовательском доступе внутри Project Glasswing.

Страница Project Glasswing на сайте Anthropic. Источник: Anthropic

Что такое Project Glasswing

Project Glasswing — это отдельный контур доступа к Claude Mythos Preview для тех, кто занимается оборонительной кибербезопасностью. В анонсе Anthropic перечисляет стартовых партнёров: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Ещё более 40 организаций, которые поддерживают критически важную инфраструктуру и открытые проекты, получили доступ для поиска и исправления уязвимостей в собственных и сторонних системах.

Под программу Anthropic закладывает до $100 млн в кредитах на использование модели и ещё $4 млн прямых пожертвований организациям, которые отвечают за безопасность открытого ПО. Внутри этой суммы компания отдельно называет $2,5 млн для Alpha-Omega и OpenSSF через Linux Foundation и $1,5 млн для Apache Software Foundation.

Ключевая деталь: речь не о «раннем доступе для всех желающих». После исследовательской фазы Mythos Preview обещают оставить внутри круга участников Project Glasswing по цене $25 за миллион входных токенов и $125 за миллион выходных. Доступ заявлен через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry, но именно для участников программы, а не для массового публичного релиза.

Почему Anthropic не выпустила Mythos в паблик

Ответ содержится в техническом разборе на red.anthropic.com, опубликованном 7 апреля 2026 года. Anthropic пишет, что Mythos Preview способна находить и затем эксплуатировать zero-day уязвимости в каждой крупной операционной системе и каждом крупном браузере, если пользователь ставит такую задачу. Компания подчёркивает, что многие найденные баги были очень старыми: один из раскрытых примеров — 27-летняя уязвимость в OpenBSD, которую уже успели закрыть после репорта.

Anthropic также прямо пишет, что не может раскрыть почти все подробности, потому что более 99% найденных уязвимостей ещё не были исправлены. Это показательный момент: компания не просто описывает «потенциальный риск», а ведёт скоординированное раскрытие и придерживает детали до патчей. Именно поэтому Glasswing выглядит не как PR-обвязка вокруг новой модели, а как попытка успеть построить защитный контур раньше, чем похожие возможности станут массовыми.

Есть и количественные сигналы. В 198 вручную проверенных отчётах о найденных уязвимостях эксперты Anthropic в 89% случаев полностью согласились с оценкой критичности, которую выставила модель, а в 98% случаев расхождение было не больше одного уровня. Если эта пропорция сохранится на остальном массиве находок, компания ожидает более тысячи критических и ещё тысячи уязвимостей высокой критичности.

Официальный график Anthropic: Mythos Preview заметно опережает Sonnet 4.6 и Opus 4.6 в задаче Firefox JS shell exploitation. Источник: red.anthropic.com

Даже опубликованные Anthropic графики выглядят жёстко. На диаграмме по Firefox JS shell exploitation Mythos Preview добилась рабочего эксплойта в 72,4% попыток и ещё в 11,6% случаев получила контроль над регистрами без полноценной эксплуатации. Для сравнения, Opus 4.6 на том же графике не показала ни одного успешного эксплойта и дошла только до 14,4% такого промежуточного результата, а Sonnet 4.6 — до 4,4%.

Что это меняет для рынка ИИ

Главный вывод в том, что такую модель теперь ограничивают не из-за репутационных рисков, а из-за слишком высокой практической полезности в атакующих сценариях кибербезопасности. До этого индустрия много говорила об обходе ограничений, злоупотреблениях и red teaming, но Glasswing поднимает планку: Anthropic фактически говорит, что модель уже достаточно сильна, чтобы её развёртывание нужно было проектировать как контролируемую программу доступа.

Этот разворот не случился в вакууме. В тот же день, 7 апреля 2026 года, на arXiv вышла работа Your LLM Agent Can Leak Your Data: Data Exfiltration via Backdoored Tool Use. Авторы описывают атаку Back-Reveal: бэкдор в агенте с доступом к инструментам вытягивает пользовательский контекст через вызовы к памяти и маскирует утечку под обычные запросы к инструментам поиска. Отдельно они показывают, что многошаговый диалог усиливает ущерб, потому что подставные ответы инструментов могут незаметно направлять дальнейшее поведение агента и накапливать утечку данных.

На следующий день, 8 апреля 2026 года, OpenAI представила Child Safety Blueprint — рамку для борьбы с AI-enabled child sexual exploitation. В документе три приоритета: обновить законы под AI-сгенерированный и изменённый CSAM, улучшить отчётность и координацию провайдеров с расследованиями, а также встроить safety-by-design меры прямо в модели и продукты. Это другой сегмент риска, но тренд тот же: провайдеры ИИ уходят от общей риторики про «ответственное развитие» к более жёстким отраслевым режимам доступа, отчётности и ограничений.

Если собрать эти три сюжета вместе, получается новая нормальность для рынка. Сильные модели будут оценивать не только по качеству кода и скорости ответов, но и по тому, в каком режиме их вообще можно безопасно дать пользователям: в открытый API, в корпоративный контур, в исследовательскую программу или только ограниченному набору партнёров.

Что это значит для разработчиков, безопасников и менеджеров

Для разработчиков эта история означает, что модели уровня Mythos стоит рассматривать не как «ещё один Copilot», а как новый класс инструмента для безопасной разработки, аудита зависимостей и анализа больших кодовых баз. Для команд безопасности сигнал ещё прямее: если защитники не начнут использовать такие системы первыми, преимущество быстро уйдёт к атакующим.

Для продуктовых и инфраструктурных менеджеров у Glasswing есть другой урок. Контроль доступа к самым сильным моделям становится частью продуктовой стратегии. Если модель умеет делать что-то слишком опасное слишком дёшево, стандартный публичный запуск может оказаться просто плохим решением. Поэтому ограничения, закрытые preview и отраслевые программы будут встречаться чаще, а не реже.

Anthropic отдельно обещает в течение 90 дней опубликовать, чему научил Project Glasswing: какие уязвимости удалось исправить, какие процессы disclosure и patching стоит менять и как должна эволюционировать защита критического ПО в эпоху сильных моделей. Именно этот отчёт покажет, был ли Glasswing разовым PR-событием или первым рабочим шаблоном для всей отрасли.

Итог

Project Glasswing важен не тем, что у Anthropic появилась ещё одна мощная модель. Важнее другое: компания впервые оформляет выпуск такой модели как ограниченную оборонительную программу, а не как обычный продуктовый релиз. Это уже не история про то, «сильнее ли Mythos, чем Opus». Это история про то, что самые мощные модели начинают жить в режимах доступа, больше похожих на инфраструктуру повышенного риска, чем на массовый SaaS.

И если Anthropic права в своих оценках, то спор скоро будет не о том, стоит ли ограничивать такие модели, а о том, кто успеет выстроить правила доступа первым: защитники, платформы или государства.

Если нужен контекст, посмотрите разбор мартовской утечки Claude Mythos, исследование «Агенты хаоса» о рисках агентных систем, материал про OpenAI Safety Bug Bounty, который показывает, как рынок переводит AI-безопасность из PR в практику, и наш более поздний кейс про trusted access вокруг Anthropic Mythos, где мы отдельно разбираем, как dual-use логика превратила Glasswing в режим доверенного допуска, а не просто ранний доступ.