OpenAI Safety Bug Bounty: до $100 000 за уязвимости ИИ-агентов

OpenAI запустила публичную программу Safety Bug Bounty на Bugcrowd. Приоритеты: агентные риски, prompt injection и утечка данных через MCP. Максимальная выплата — $100 000.

OpenAI Safety Bug Bounty: до $100 000 за уязвимости ИИ-агентов

25 марта 2026 года OpenAI запустила публичную программу Safety Bug Bounty — вознаграждение за обнаружение рисков злоупотребления ИИ. Это отдельная программа от существующей Security Bug Bounty, которая занимается традиционными уязвимостями. Новая программа охватывает более широкий класс проблем: атаки на агентные системы, prompt injection, утечку данных через MCP-интеграции и обход защитных механизмов платформы.

Максимальная выплата за критическую находку — $100 000. Год назад потолок был $20 000.

Что ищут и за что платят

Программа размещена на Bugcrowd и принимает отчёты по трём основным категориям.

Агентные риски, включая MCP. Сюда попадает всё, что связано с атаками на продукты OpenAI, способные действовать от имени пользователя: Atlas Browser, Codex, Operator, Connectors и другие агентные инструменты ChatGPT. Конкретно ищут:

  • Prompt injection от третьих сторон, который заставляет агента выполнять вредоносные действия или сливать данные пользователя. Атака должна воспроизводиться минимум в 50% случаев.
  • Обход авторизации, при котором агент получает доступ к данным или действиям за пределами разрешений пользователя, включая межтенантный доступ.
  • Действия без подтверждения пользователя или с вводящими в заблуждение диалогами подтверждения.

Проприетарная информация OpenAI. Награждаются отчёты, демонстрирующие генерации модели, которые раскрывают внутреннюю информацию о рассуждениях (полную цепочку мыслей без суммаризации) или другую конфиденциальную информацию компании.

Целостность аккаунтов и платформы. Ищут уязвимости, позволяющие обходить rate-лимиты, массово создавать аккаунты или манипулировать сигналами доверия платформы. Bypass должен быть масштабируемым, равнозначным переходу на следующий тарифный план.

Иллюстрация программы bug bounty от OpenAI
Иллюстрация из блога OpenAI о программе Bug Bounty

Что не принимается

Jailbreak'и — вне scope. Если модель ругается или выдаёт информацию, легко находимую в поисковике, это не считается safety-уязвимостью. Обход контент-политик без демонстрируемого ущерба тоже не подходит.

Системные промпты и любые данные из контекстного окна модели (кроме полной цепочки рассуждений) — вне scope. Проблемы, существующие исключительно в сторонних сервисах и не требующие исправления со стороны OpenAI, тоже не принимаются.

OpenAI периодически запускает приватные кампании на Bugcrowd для поиска конкретных типов уязвимостей. Например, уже проходили кампании по биорискам в ChatGPT Agent и GPT-5.

Почему агентные риски стали приоритетом

Запуск Safety Bug Bounty совпал с публикацией OpenAI о защите агентов от prompt injection (11 марта 2026). В ней компания описала, как изменился характер атак: от простых вставок текста в контент (например, скрытые инструкции на Wikipedia-странице) к полноценной социальной инженерии.

Современные атаки на ИИ-агентов всё больше напоминают атаки на людей: злоумышленник пытается убедить агента, что определённое действие легитимно, используя контекст, авторитет и правдоподобные аргументы. Простая фильтрация входящих данных, которую продвигают под названием «AI firewalling», с такими атаками не справляется — отличить манипуляцию от легитимного контента стало так же сложно, как распознать ложь.

OpenAI описывает подход source-sink analysis: для успешной атаки нужен источник (способ повлиять на систему) и приёмник (действие, опасное в неправильном контексте). Основная защита — не допустить, чтобы потенциально опасные действия или передача данных третьим сторонам происходили без ведома пользователя. Для этого в ChatGPT используется механизм Safe Url: когда система обнаруживает попытку передать данные из разговора внешнему получателю, она либо запрашивает подтверждение пользователя, либо блокирует действие.

Что это значит для разработчиков

Если вы строите продукты на ChatGPT или OpenAI API с агентными возможностями, Safety Bug Bounty — сигнал о том, какие угрозы OpenAI считает приоритетными.

MCP-интеграции и Connectors — зона повышенного риска. Каждый раз, когда агент получает доступ к внешней системе от имени пользователя (чтение данных, отправка сообщений, изменение записей), возникает поверхность атаки. OpenAI прямо указывает, что проблемы в плохо аннотированных сторонних MCP-серверах — вне scope программы. Значит, ответственность за безопасность своих интеграций лежит на разработчиках.

Prompt injection по классификации OWASP входит в топ-1 уязвимостей LLM-приложений на 2025 год и обнаруживается в более чем 73% приложений. Программа OpenAI подтверждает: эта проблема признана на уровне крупнейшей ИИ-компании, и полного решения пока нет.

Как участвовать

Программа открыта для всех через Bugcrowd. OpenAI предоставляет Safe Harbor: тестирование в рамках программы считается авторизованным, компания не будет преследовать исследователей юридически. Но есть ограничения: тестировать можно только свои аккаунты, нельзя атаковать агентов реальных пользователей, автоматические сканеры могут привести к блокировке.

Для исследователей безопасности из России есть нюанс: OpenAI ограничивает доступ из ряда регионов, что может усложнить участие в программе. Формально правила программы не содержат географических ограничений, но практические трудности с доступом к платформе остаются.

Итог

Safety Bug Bounty от OpenAI — признание того, что безопасность языковых моделей вышла за рамки традиционных уязвимостей. Агентные риски, prompt injection и утечка данных через интеграции — это не теоретические угрозы, а проблемы, за решение которых платят до $100 000.

Для индустрии это полезный прецедент: формализация AI safety issues в формате, привычном для сообщества исследователей безопасности.

Читайте также

Telegram-канал @toolarium