Anthropic jailbreaks: почему Fable 5 нельзя защитить одним патчем

Anthropic jailbreaks стали поводом для отключения Fable 5 и Mythos 5. Разбираем, почему guardrails снижают риск, но не доказывают отсутствие всех обходов.

Dario Amodei, CEO Anthropic, в материале WIRED о споре вокруг Fable 5 и Anthropic jailbreaks

Anthropic jailbreaks: почему Fable 5 нельзя защитить одним патчем

По состоянию на 17 июня 2026 года спор вокруг Anthropic jailbreaks упёрся не в один хитрый prompt, а в более неудобный вопрос: можно ли от frontier-модели требовать доказательства, что все будущие обходы защиты невозможны. После запуска Claude Fable 5 и Mythos 5 правительство США потребовало ограничить доступ к моделям, Anthropic отключила их для всех клиентов, а затем начались переговоры с Белым домом.

Jailbreak ИИ - это способ обойти защитные правила модели и получить ответ, который guardrails должны были заблокировать. В случае Fable 5 спор особенно острый: это версия Mythos-класса для широкой аудитории, где часть опасных запросов в области кибербезопасности, биологии и химии должна уходить на менее рискованный fallback, а не получать полный ответ от самой сильной модели.

Официальная таблица Anthropic с оценками Claude Mythos 5, Fable 5, Opus 4.8, GPT-5.5 и Gemini 3.1 Pro
Anthropic представила Fable 5 и Mythos 5 как самые сильные модели компании, но сама же отметила, что часть бенчмарков помечена звёздочкой из-за защитных fallback-механизмов. Источник: Anthropic, изображение проверено 17 июня 2026 года.

Что случилось с Fable 5 и Mythos 5

Anthropic объявила Claude Fable 5 и Claude Mythos 5 9 июня 2026 года. В официальном релизе Fable 5 описан как Mythos-class model для общего использования, а Mythos 5 - как та же базовая модель с отключёнными ограничениями в некоторых областях для доверенных киберзащитников и инфраструктурных партнёров. Компания указала цену $10 за миллион input tokens и $50 за миллион output tokens.

Через три дня Anthropic опубликовала отдельное заявление: правительство США, ссылаясь на полномочия в сфере национальной безопасности, выпустило export-control directive и потребовало приостановить доступ к Fable 5 и Mythos 5 для любых foreign nationals, включая иностранных сотрудников Anthropic. Чтобы не нарушить директиву, компания отключила обе модели для всех клиентов.

По версии Anthropic, письмо не содержало подробного технического описания угрозы. Компания пишет, что правительство, вероятно, ссылается на метод обхода Fable 5, но называет доступные ей доказательства узкими: демонстрация позволяла найти небольшое число уже известных и простых уязвимостей, которые способны находить и другие публичные модели.

Почему это не обычная уязвимость

В классической безопасности удобно думать о проблеме как о баге: нашли ошибку, воспроизвели, исправили, проверили регрессионным тестом. С jailbreaks у LLM так не получается. Prompt-пространство огромное, запросы можно переформулировать, а полезный и вредный сценарий часто отличаются не синтаксисом, а контекстом.

Anthropic прямо признаёт это в своём заявлении: идеальная устойчивость к jailbreaks сегодня, вероятно, недостижима для любого провайдера моделей. Поэтому компания выбрала defense in depth: сделать универсальные обходы дорогими, неуниверсальные - узкими, а успешные атаки ловить мониторингом и донастройкой защит.

Это слабее политически, чем обещание «мы закрыли все обходы», зато честнее технически. Guardrails можно измерять: red teaming, evals, bug bounty, доля ложных срабатываний, успешность атак на длинных агентных задачах, скорость реакции на новые сценарии. Но такие проверки показывают риск и прогресс, а не математическое отсутствие всех будущих способов обхода.

Где расходятся Anthropic и власти США

WIRED сообщил, что 15 июня переговоры Anthropic с представителями администрации США не привели к снятию export controls. По данным издания, чиновники всё ещё считают, что часть guardrails Claude Fable 5 можно отключить и тем самым получить доступ к более мощным кибервозможностям Mythos. В обсуждениях участвовали представители Commerce Department, Center for AI Standards and Innovation и Office of the National Cyber Director.

Тот же материал WIRED описывает путь эскалации: Amazon CEO Andy Jassy сообщил о предполагаемых уязвимостях Treasury Secretary Scott Bessent, после чего Белый дом поручил NSA помочь с проверкой. По данным WIRED, NSA сочла снятие guardrails возможным, и это подтолкнуло администрацию к ограничениям. Amazon публично не раскрывает детали таких консультаций.

Позиция Anthropic другая. Компания утверждает, что не получила доказательств универсального jailbreak. Её тезис: если узкий потенциальный обход, сравнимый с возможностями других моделей, становится основанием для отзыва коммерческой frontier-модели, такой стандарт фактически остановит новые релизы у всех крупных лабораторий.

Требование против технической реальности

Требование Техническая реальность Что можно проверять
Закрыть jailbreaks до возврата модели Нельзя доказать отсутствие всех будущих обходов. Можно снижать вероятность, стоимость и масштаб успешных атак. Результаты red teaming, bug bounty, долю успешных атак на разных классах задач, скорость mitigation после disclosure.
Не дать Fable 5 раскрывать Mythos-возможности Fable 5 и Mythos 5 основаны на одной модели; различие задают защитные слои и fallback на Opus 4.8 для чувствительных доменов. Проверки cyber, bio/chem и distillation-классификаторов, плюс аудит fallback-маршрутов на реальных запросах.
Отделить защитные и атакующие киберсценарии В кибербезопасности один и тот же навык нужен и защитнику, и атакующему: найти баг, объяснить риск, написать тест, проверить исправление. Контекст запроса, полномочия пользователя, цель операции, журналы действий и ограничения на автоматизацию вредных цепочек.
Сделать решение быстрым Экстренная директива быстрее, чем прозрачная процедура, но хуже объясняет рынок: что именно считается недопустимым риском. Публичный стандарт evidence threshold, независимые оценки, сроки на исправление, процедура апелляции.

Почему «fix this code» стал центральным спором

Технический контраргумент сильнее всего сформулировала Katie Moussouris, основательница Luta Security. По её словам, Anthropic показала ей частный research paper о bypass-техниках Fable 5. В её пересказе исследователи дали моделям код с известными и искусственно добавленными уязвимостями, сначала попросили проверить код на проблемы безопасности, а после отказа Fable 5 попросили «fix this code». Затем, уже вручную и в несколько шагов, из результата сделали scripts для проверки патчей.

Moussouris считает, что такое поведение не должно было запускать export controls. Её аргумент прагматичный: защитникам нужно просить модель исправлять баги, объяснять риск и писать тесты. Если запретить эту способность, модель станет хуже именно для defensive security.

Открытое письмо FreeFable от 14 июня идёт в том же направлении. Подписанты признают, что Mythos-class модели сильны в поиске уязвимостей и эксплуатации, но спорят с тезисом об их уникальности. Они просят снять export controls и перейти к открытой, научной и прозрачной процедуре оценки AI cyber risk.

Официальный график Anthropic с результатами agentic coding и FrontierCode для Claude Fable 5, Opus 4.8 и GPT-5.5
Официальный график Anthropic показывает, почему спор трудно свести к одному prompt: Fable 5 сильна в agentic coding, а именно эти навыки нужны и для защиты, и для потенциального misuse. Источник: Anthropic, изображение проверено 17 июня 2026 года.

Почему это важно шире Anthropic

Если государство требует от лаборатории «полностью закрыть jailbreaks», оно должно определить, что считается достаточным доказательством. Иначе модель можно остановить из-за любого спорного отчёта, особенно если он попадает в политически чувствительный момент.

Для других AI labs сигнал уже понятен. WIRED пишет, что от лабораторий теперь ожидают раннего доступа правительства к advanced AI models и проактивного информирования о запусках. Это близко к теме, которую мы разбирали в материале про AI-регулирование frontier-моделей и в разборе указа Трампа о раннем доступе к frontier-моделям: без ясного процесса решение уходит в переговоры, личные каналы и экстренные письма.

Есть и чисто продуктовый риск. Если Fable 5 отключена для всех, а не только для иностранных пользователей, пострадали не только потенциальные злоумышленники. Доступ потеряли и defensive teams, которые могли использовать Mythos/Fable для поиска и исправления уязвимостей. Это важно держать рядом с хронологическим контекстом: раньше Toolarium уже разбирал, как Anthropic отключила Fable 5 и Mythos 5 после директивы США.

Что считать нормальным контролем frontier-моделей

У контроля frontier-моделей есть рабочая альтернатива экстренным запретам: регулярные независимые оценки, чёткий порог вмешательства, обязательная процедура раскрытия результатов, время на исправление и понятный способ оспорить выводы. Государство всё равно должно иметь право блокировать опасный релиз, но по проверяемой процедуре.

Для guardrails особенно важны не лозунги, а метрики. Сколько часов внешнего red teaming прошла модель. Какие классы задач тестировались. Какие jailbreaks считаются universal, а какие non-universal. Какой ущерб реально продемонстрирован. Сколько времени у лаборатории есть на mitigation. Где проходит граница между defensive code repair и созданием атакующей цепочки.

Эта логика связана с broader alignment-повесткой, но не совпадает с ней полностью. В материале про безопасность ИИ и alignment мы говорили о целях и поведении модели. Здесь вопрос уже операционный: кто и по какой процедуре решает, что защитные слои достаточно сильны для public release.

FAQ

Что такое Anthropic jailbreaks в этом споре?

Это предполагаемые способы обойти guardrails Claude Fable 5 и получить ответы, которые должны быть заблокированы или перенаправлены на менее рискованную модель. Anthropic признаёт риск неуниверсальных обходов, но говорит, что ей не показали доказательство universal jailbreak.

Почему Fable 5 и Mythos 5 отключили для всех?

Директива США требовала приостановить доступ для foreign nationals, включая иностранных сотрудников Anthropic. Компания решила отключить Fable 5 и Mythos 5 для всех клиентов, чтобы гарантированно выполнить требование.

Можно ли полностью закрыть jailbreaks?

Сейчас это не доказано. Anthropic прямо пишет, что perfect jailbreak resistance, вероятно, недостижима для любого провайдера. Реалистичная цель - снизить риск, сделать универсальные обходы дорогими, быстро ловить успешные атаки и обновлять защиту.

Почему спор связан с кибербезопасностью?

Mythos-class модели сильны в поиске и исправлении уязвимостей. Этот навык двойного назначения: он нужен защитникам, но может помочь атакующим. Поэтому простое правило «не отвечать на киберзапросы» ломает полезные сценарии вместе с вредными.

Главное

История с Anthropic jailbreaks показывает пределы простого политического требования: «почините защиту и верните модель». Для frontier-моделей защита не выглядит как один патч. Это постоянный процесс: классификаторы, fallback, red teaming, мониторинг, retention, disclosure и новые evals.

Белому дому нужен способ остановить действительно опасный релиз. Лабораториям нужен понятный стандарт, по которому их не будут отключать из-за спорной интерпретации defensive capability. Пользователям нужен доступ к сильным инструментам без превращения киберзащиты в слепую зону. Пока такого процесса нет, следующий спор о jailbreaks будет решаться не только фактами, но и тем, кто быстрее дойдёт до правительства.

Источники и проверка фактов

Факты, даты, заявления Anthropic, сообщения СМИ и изображения проверены 17 июня 2026 года. Тема развивается быстро: статус Fable 5, Mythos 5 и export controls может измениться после новых переговоров или документов.

Telegram-канал @toolarium