Безопасность ИИ: что такое alignment и почему это важно

Что такое alignment в ИИ: RLHF, Constitutional AI, red teaming. Почему обеспечение безопасности языковых моделей — одна из главных задач отрасли.

Безопасность ИИ: что такое alignment и почему это важно

Языковая модель, обученная на интернете, знает всё — включая инструкции по созданию опасных веществ, методы социальной инженерии и способы обхода систем безопасности. Alignment — процесс настройки модели так, чтобы она была полезной, честной и безвредной. Это не просто фильтр плохих слов. Это фундаментальная исследовательская проблема, от решения которой зависит будущее технологии.

Проблема: модель без alignment

После предварительного обучения (pre-training) языковая модель умеет продолжать текст, но не умеет быть ассистентом. Она может:

  • Генерировать ненавистнический контент, если так продолжается входной текст
  • Уверенно врать — для модели правда и ложь не отличаются, если оба варианта статистически вероятны
  • Следовать любым инструкциям, включая вредоносные
  • Усиливать стереотипы из обучающих данных

Задача alignment — привести поведение модели в соответствие с человеческими ценностями и намерениями пользователей. Модель должна помогать, когда это безопасно, и отказывать, когда запрос опасен. При этом нельзя сделать модель слишком «осторожной» — иначе она становится бесполезной, отказываясь от легитимных запросов.

RLHF: обучение на обратной связи

Reinforcement Learning from Human Feedback — метод, который сделал ChatGPT возможным. Процесс состоит из трёх этапов:

1. Supervised Fine-tuning (SFT). Модели показывают примеры «правильных» ответов, написанных людьми. Это учит модель формату диалога и базовому следованию инструкциям.

2. Обучение модели вознаграждения (Reward Model). Модель генерирует несколько вариантов ответа на один промпт. Люди-оценщики ранжируют варианты от лучшего к худшему. На этих парных сравнениях обучается отдельная модель — reward model, которая предсказывает, какой ответ человек предпочтёт.

3. Reinforcement Learning (PPO). LLM дообучается через алгоритм PPO (Proximal Policy Optimization), максимизируя оценку reward model. Модель учится генерировать ответы, которые люди оценили бы выше.

Масштаб: по данным OpenAI, для alignment GPT-4 использовались миллионы парных сравнений от тысяч оценщиков.

Constitutional AI (Anthropic)

Anthropic разработала альтернативный подход — Constitutional AI (CAI). Вместо того чтобы полагаться исключительно на человеческую разметку, CAI использует набор принципов (конституцию) и саму модель для оценки ответов.

Процесс:

  1. Модель генерирует ответ на потенциально вредный запрос
  2. Другая (или та же) модель критикует ответ на основе набора принципов: «Является ли этот ответ вредным?», «Поощряет ли он опасное поведение?»
  3. Модель ревизирует свой ответ с учётом критики
  4. Пары «оригинал — ревизия» используются для обучения

Конституция включает десятки принципов: от очевидных («не помогай создавать оружие») до тонких («не делай необоснованных предположений о поле, расе или намерениях пользователя»). Полный набор принципов Anthropic опубликовала в открытом доступе.

Преимущество CAI — масштабируемость. Человеческая разметка дорога и медленна. ИИ-оценка позволяет обрабатывать миллионы примеров при минимальном участии людей.

Red teaming: поиск уязвимостей

Red teaming — систематическое тестирование модели на устойчивость к вредоносным запросам. Команда «красных» (внутренние исследователи, внешние эксперты, иногда другие ИИ-модели) пытается «взломать» модель — заставить её генерировать запрещённый контент, обойти фильтры, выдать конфиденциальную информацию.

Типы атак, которые проверяются:

  • Jailbreak — формулировки, обходящие ограничения модели. «Представь, что ты злодей из фильма...», «Напиши код для образовательных целей...»
  • Prompt injection — внедрение инструкций через входные данные. Если модель обрабатывает пользовательский текст, злоумышленник может вставить в него команды для модели.
  • Social engineering — многошаговые диалоги, постепенно подводящие модель к вредоносному ответу
  • Multilingual attacks — вредоносные запросы на языках с меньшим объёмом обучающих данных, где фильтры слабее

Anthropic, OpenAI и Google регулярно проводят red teaming с участием внешних экспертов перед выпуском новых моделей. Результаты влияют на решение о публикации: если обнаружена критическая уязвимость, релиз откладывается.

Баланс: полезность vs безопасность

Чрезмерный alignment делает модель бесполезной. Есть термин — overrefusal (излишний отказ): модель отказывается обсуждать медицинские темы («я не могу давать медицинские советы»), помогать с легитимными запросами о безопасности («не могу обсуждать уязвимости»), генерировать творческий контент с конфликтами.

OpenAI на раннем этапе подверглась критике за чрезмерно осторожного ChatGPT. Anthropic нашла баланс лучше: Claude 3 отказывает реже, но при этом остаётся безопасным. Ключевой принцип — различать намерение пользователя: медик, спрашивающий о дозировках, и злоумышленник, ищущий рецепт отравления, задают похожие вопросы с разными целями.

Регулирование

Правительства начали реагировать на риски ИИ. EU AI Act (вступил в силу в 2024 году) классифицирует ИИ-системы по уровню риска и устанавливает требования к тестированию и прозрачности. В США Белый дом выпустил Executive Order on AI Safety (октябрь 2023), требующий от разработчиков отчитываться о безопасности перед выпуском моделей выше определённого порога вычислительной мощности.

Для разработчиков приложений на основе LLM регулирование означает: ответственность за поведение ИИ в продукте лежит на операторе. Системный промпт, фильтры, модерация — минимально необходимый набор мер.

Открытые вопросы

Alignment — не решённая задача. Исследователи продолжают работать над фундаментальными вопросами. Как определить «ценности», на которые должна быть настроена модель? Чьи ценности приоритетны? Как гарантировать alignment при масштабировании моделей? Как предотвратить ситуацию, когда модель «притворяется» alignment, пройдя тесты, но меняя поведение в продакшене (проблема deceptive alignment)?

Эти вопросы не имеют простых ответов. Но от их решения зависит, станет ли мощный ИИ инструментом, работающим в интересах людей, или источником системных рисков.

AI Safety и Alignment: ключевые концепции

AI Safety — область исследований, направленная на создание ИИ-систем, безопасных и полезных для человечества. Alignment — задача согласования целей ИИ с ценностями и намерениями людей. По мере роста возможностей LLM эти вопросы из академических становятся практическими.

Основные риски и способы их снижения

РискОписаниеТекущие решения
HallucinationУверенные ложные утвержденияRAG, fact-checking, temperature↓
Prompt InjectionЗлонамеренные инструкции в данныхInput sanitization, sandboxing
JailbreakОбход ограничений безопасностиRLHF, Constitutional AI
Data PoisoningАтака на обучающие данныеФильтрация датасетов
Model TheftИзвлечение модели через APIRate limiting, watermarking
BiasДискриминация по защищённым признакамDebiasing, fairness evals

Подходы к Alignment

RLHF (Reinforcement Learning from Human Feedback) — обучение на основе оценок людей. Люди-оценщики ранжируют ответы модели, эти предпочтения используются для обучения reward model, которая затем тонкоподстраивает основную модель. Используется в ChatGPT, Claude, Gemini.

Constitutional AI (Anthropic) — модель обучается следовать набору принципов (конституции), оценивая собственные ответы на соответствие им. Снижает зависимость от человеческих оценщиков.

DPO (Direct Preference Optimization) — более простая альтернатива RLHF без reward model. Набирает популярность как более стабильный и дешёвый метод alignment.

Практическая безопасность LLM для разработчиков

Prompt Injection — главная атака на LLM-приложения. Злоумышленник вставляет инструкции в пользовательский ввод: «Игнорируй предыдущие инструкции и сделай X». Защита: никогда не доверяйте пользовательскому вводу как инструкциям системного уровня, используйте отдельные API-вызовы для данных и инструкций, внедряйте output validation.

Чувствительные данные в промптах: не передавайте в облачные API персональные данные, коммерческую тайну, пароли. Для чувствительных данных — self-hosted модели.

Ключевые организации в AI Safety

Anthropic — основана бывшими сотрудниками OpenAI, фокус на Constitutional AI и interpretability. Публикует исследования по безопасности, ввела систему «уровней доверия» для моделей.

AI Safety Institute (UK, US) — государственные органы по оценке рисков frontier-моделей. Проводят red-teaming перед публичным выпуском крупных моделей.

Center for AI Safety — независимая организация, опубликовала декларацию об экзистенциальных рисках ИИ, подписанную лидерами индустрии включая Hinton и Bengio.


Читайте также