OpenAI

GPT-5.5 Bio Bug Bounty: OpenAI ищет универсальный jailbreak

OpenAI ищет не общий обход фильтров, а один воспроизводимый jailbreak для пяти bio safety questions в GPT-5.5 и проверяет это через отдельную программу.

GPT-5.5 Bio Bug Bounty OpenAI запустила 23 апреля 2026 года как отдельную программу для биорисков вокруг GPT-5.5. По состоянию на 25 апреля компания принимает заявки от исследователей с опытом в AI red teaming, security или biosecurity и просит их найти один universal jailbreak, который проводит модель через пять bio safety questions без срабатывания модерации. Это не общая охота за багами по всем продуктам OpenAI. Здесь scope уже, правила жёстче, а доступ идёт через отбор и NDA.

Главная новость не в сумме награды, хотя она тоже конкретная: $25,000 за первый true universal jailbreak. Важнее другое. OpenAI проверяет, существует ли после релиза один воспроизводимый обход biosafety guardrails на продакшн-конфигурации GPT-5.5. То есть часть frontier-safety выносят из закрытой лабораторной процедуры в управляемый внешний red teaming.

Что именно OpenAI запустила

Условия программы узкие и потому интересные. В scope попадает только GPT-5.5 в Codex Desktop. Задача не звучит как размытое «попробуйте сломать систему». Нужно найти один универсальный jailbreaking prompt, который из чистого чата успешно отвечает на все пять bio safety questions и не триггерит prompting moderation.

Тайминг тоже задан заранее. Заявки открылись 23 апреля 2026 года и закроются 22 июня. Само тестирование начинается 28 апреля и заканчивается 27 июля. OpenAI отдельно пишет, что будет приглашать vetted list of trusted bio red-teamers, а также рассматривать новые заявки. Все prompts, completions, findings и коммуникации закрыты NDA.

Чем эта программа отличается от мартовской Safety Bug Bounty

Здесь проще всего уехать не в тот заголовок. В марте OpenAI уже запустила публичную Safety Bug Bounty, и по названию кажется, что нынешний запуск просто продолжает ту же линию. Но официальные страницы говорят обратное. Публичная программа от 25 марта сфокусирована на abuse и safety risks across OpenAI products: prompt injection, data exfiltration, вредные действия агентных продуктов и утечки proprietary information.

Для Bio Bug Bounty OpenAI собирает отдельный контур. Более того, на странице мартовской Safety Bug Bounty компания прямо пишет: jailbreaks находятся вне scope этой программы, а private campaigns по отдельным типам вреда вроде biorisk content issues запускаются отдельно. Нынешний GPT-5.5 Bio Bug Bounty как раз и есть такой отдельный biosecurity-трек. Поэтому его нельзя смешивать ни с общим Safety Bug Bounty для уязвимостей ИИ-агентов, ни с общим «OpenAI bug bounty» без слова Bio.

Программа	Что в scope	Как трактуются jailbreak'и	Доступ
GPT-5.5 Bio Bug Bounty	GPT-5.5 в Codex Desktop; один universal prompt; пять bio safety questions	Это главный объект программы	Заявка, приглашения, vetted researchers, NDA
Safety Bug Bounty	AI abuse и safety risks across OpenAI products	Вне scope, кроме отдельных private campaigns по harm-type	Публичная программа через Bugcrowd

Это важная развилка для SEO и для смысла статьи. Если убрать слово Bio, мы сразу попадаем в чужой интент и начинаем каннибализировать уже опубликованный материал.

Что говорит системная карта GPT-5.5

System card добавляет важный контекст. OpenAI относит GPT-5.5 к High capability в biological and chemical domain и включает соответствующие safeguards. Но компания не пишет, что модель внезапно ушла в новый неконтролируемый класс биологических рисков. В разделе про внешнюю оценку U.S. CAISI сказано аккуратнее: тестирование не показало broad increase in national security-relevant biological capabilities относительно GPT-5 helpful-only model.

Это меняет тон новости. Bio Bug Bounty выглядит не как признание провала, а как post-deployment probe. В system card OpenAI прямо пишет, что selected researchers через invitation и application будут пытаться решить серию bio safety challenges одной jailbreak-стратегией. Цель формулируется без украшений: проверить, существует ли воспроизводимый universal jailbreak после deployment, и быстро смягчить риск, если такой сценарий найдётся.

System card отдельно показывает внешний bio-оценочный блок: SecureBio и US CAISI не описывают резкий скачок биологических возможностей, но дают фон для отдельной post-deployment проверки. Источник: OpenAI.

Почему OpenAI всё равно выводит это во внешний red teaming

Потому что в той же system card есть и неудобная часть. В разделе Bio Safeguards Testing OpenAI пишет, что sustained expert jailbreaking мог вызывать model-level failures. Это важная формулировка. Она означает не то, что guardrails бесполезны, а то, что экспертное давление на систему всё ещё может находить слабые места.

Дальше идёт вторая половина тезиса, и она не менее важна. OpenAI пишет, что safety reasoning classifier выявил релевантные high-priority jailbreaks до запуска, а findings использовали для валидации safeguard coverage. В финальной конфигурации, по словам компании, safeguard stack blocked the identified and verified high-severity biological misuse jailbreaks from these campaigns.

Проще говоря, OpenAI не обещает неуязвимость. Компания обещает более скромную вещь: до релиза найденные тяжёлые обходы закрыли, а теперь хотят проверить, существует ли один универсальный путь снова пройти через весь bio-набор уже на рабочем деплое. Это не PR-жест. Это нормальная after-launch проверка для модели, которую сама лаборатория относит к high-capability в биологическом домене.

В разделе Bio Safeguards Testing OpenAI признаёт, что sustained expert jailbreaking мог вызывать сбои на уровне модели, но утверждает, что в финальной конфигурации verified high-severity jailbreaks были закрыты. Источник: OpenAI.

Почему в scope только Codex Desktop

Ограничение до Codex Desktop тоже выглядит осознанным. Так проще держать одинаковую среду тестирования: один интерфейс, один набор политик, один наблюдаемый путь работы модели. Плюс OpenAI явно не хочет превращать программу в массовый поиск обходов по всем продуктам сразу. Отсюда и заявки, и приглашения, и требование действующего аккаунта ChatGPT, и NDA на результаты.

Этот ход хорошо рифмуется с более широкой линией OpenAI вокруг dual-use сценариев. Мы уже разбирали, как компания переводит часть сильных возможностей в режим ограниченного доступа для кибербезопасности. Bio Bug Bounty устроен похожим образом. Внешних исследователей привлекают, но не по модели открытого хаоса, а по модели контролируемого доступа.

Что это меняет для рынка ИИ-безопасности

Самый интересный вывод здесь не про деньги. $25,000 скорее показывает, что OpenAI ищет не россыпь мелких report'ов, а один воспроизводимый сценарий, который реально пробивает biosafety boundary на всём наборе задач. Если такой jailbreak существует, его удобнее искать отдельной программой с жёстким критерием победы, чем растворять среди сотен разнородных находок общего bounty.

Для рынка это ещё один сигнал: frontier safety всё меньше похожа на разовую публикацию system card и всё больше на постоянный operational process. До релиза модель гоняют через внутренние и внешние оценки. После релиза запускают отдельные кампании под конкретный harm type. Параллельно разводят public safety reports, trusted access и private bounty programs по разным контурам. Бюрократии здесь много, но она уже работает как часть продукта.

Если нужен общий фон по самой модели, он у нас уже есть в разборе выхода GPT-5.5 в ChatGPT и Codex. Нынешняя история уже про другое. Не про то, насколько умна новая модель, а про то, как лаборатория пытается удержать контроль над самым неприятным классом post-deployment проверок.

Итог

По состоянию на 25 апреля 2026 года GPT-5.5 Bio Bug Bounty выглядит как отдельный biosecurity-контур, а не как продолжение мартовской Safety Bug Bounty. В scope только GPT-5.5 в Codex Desktop, доступ идёт через заявки и приглашения, участников обязывают NDA, а критерием успеха становится один universal jailbreak на пять bio safety questions.

Это довольно трезвый сигнал от OpenAI. Компания не делает вид, что проблема решена навсегда. Она признаёт более неудобную реальность: самые неприятные проверки надо делать и после релиза, но делать их в управляемом внешнем процессе. Для frontier-моделей это, похоже, и становится новой нормой.

GPT-5.5 Bio Bug Bounty: OpenAI ищет универсальный jailbreak

Что именно OpenAI запустила

Чем эта программа отличается от мартовской Safety Bug Bounty

Что говорит системная карта GPT-5.5

Почему OpenAI всё равно выводит это во внешний red teaming

Почему в scope только Codex Desktop

Что это меняет для рынка ИИ-безопасности

Итог

Читайте также

Источники

Похожие статьи

Последствия атаки через TanStack npm для OpenAI: почему приложения на macOS нужно обновить до 12 июня

Windows-sandbox для Codex: как OpenAI построила безопасную среду агента на Windows

Илья Суцкевер и переворот в OpenAI 2023: что он подтвердил в суде

OpenAI сворачивает self-serve fine-tuning: что меняется