OpenAI

Model Spec от OpenAI: как устроен фреймворк поведения ИИ-моделей

OpenAI опубликовала подробный разбор Model Spec — документа, который определяет поведение всех моделей компании. Разбираем механизмы: цепочку команд, жёсткие правила, умолчания и публичные метрики.

OpenAI опубликовала подробный разбор своего Model Spec, документа, который определяет, как должны себя вести все модели компании, от ChatGPT до API. По сути это попытка сделать поведение ИИ предсказуемым, проверяемым и открытым для публичной критики.

Ниже разбираем, как устроен этот документ, какие механизмы в него заложены и почему разработчикам и бизнесу стоит обратить на него внимание.

Что такое Model Spec

Model Spec — формальная спецификация поведения моделей OpenAI. Документ описывает, как модели должны выполнять инструкции, разрешать конфликты между разными источниками указаний, уважать свободу пользователей и соблюдать требования безопасности.

Первая версия вышла в 2024 году. С тех пор спецификация заметно выросла: появились разделы про мультимодальные взаимодействия, автономных агентов и работу с несовершеннолетними. Актуальная версия от 18 декабря 2025 года доступна на model-spec.openai.com.

OpenAI подчёркивает: Model Spec описывает не то, как модели ведут себя сегодня, а то, куда компания хочет прийти. Это целевой ориентир, а не фиксация текущего состояния.

Иллюстрация из блога OpenAI к публикации Model Spec

Цепочка команд: кто главнее

В основе Model Spec лежит концепция Chain of Command, цепочка команд. Инструкции могут приходить из трёх источников: от самой OpenAI, от разработчиков (через системные промпты API) и от конечных пользователей. Когда эти инструкции конфликтуют, модель следует иерархии.

На практике это работает так:

Указания OpenAI (Model Spec) имеют высший приоритет. Это «конституция», которую нельзя обойти.
Инструкции разработчика (системные промпты, настройки API) могут менять поведение модели в рамках, заданных OpenAI.
Запросы пользователя имеют самый низкий приоритет, хотя именно для пользователя модель и работает.

Принцип похож на устройство правовой системы: конституция, потом федеральные законы, потом подзаконные акты. Разработчик не может попросить модель нарушить жёсткие правила OpenAI, а пользователь не может обойти ограничения разработчика.

Жёсткие правила и настраиваемые умолчания

Model Spec разделяет правила на два типа.

Жёсткие правила (hard rules) — абсолютные запреты, которые нельзя отменить. Модель не должна помогать в создании оружия массового поражения, генерировать материалы сексуального насилия над детьми, подрывать цепочку команд. Таких правил немного, и OpenAI намеренно ограничивает их число: компания считает, что ИИ станет базовой инфраструктурой, и чрезмерные ограничения навредят свободе мысли.

Умолчания (defaults) — стартовые настройки, которые можно менять. Тон, стиль, глубина ответа, формат: всё это разработчик или пользователь может настроить под себя. Но некоторые умолчания, вроде честности и объективности, требуют явного указания для изменения. Они не должны «дрейфовать» незаметно.

Такое разделение — попытка найти баланс между безопасностью и свободой. OpenAI не хочет быть арбитром морали во всех вопросах, но обязана обеспечить базовую безопасность.

Почему нельзя просто сказать «будь полезным и безопасным»

Один из ключевых тезисов OpenAI: даже очень умная модель не выведет правильное поведение из абстрактных принципов. Казалось бы, достаточно инструкции «будь полезным и безопасным», но поведение ИИ полно ситуаций, где нет одного морально правильного ответа.

OpenAI приводит аналогию с правовой системой. Конституция задаёт высокоуровневые принципы, но для работы нужны законы, подзаконные акты, судебная практика. Без конкретных правил каждый спорный случай решался бы непредсказуемо.

Помимо этого, явные правила компенсируют практические ограничения моделей. Модель видит только текущий разговор и не знает полную ситуацию пользователя. Конкретные инструкции снижают вариативность, так что похожие запросы получают согласованные ответы. А наличие спецификации позволяет измерить, следует ли ей модель.

Динамика соответствия моделей OpenAI требованиям Model Spec. Источник: OpenAI

Model Spec Evals: как измеряют соответствие

Вместе со статьёй OpenAI выпустила Model Spec Evals — набор сценарных тестов, которые покрывают утверждения из спецификации. Каждый тест содержит пример запроса и образец правильного и неправильного ответа.

По графику компании видно устойчивый рост соответствия моделей требованиям Model Spec. OpenAI честно оговаривает: часть улучшений объясняется тем, что старые модели тестируются по более новым политикам. Но общий тренд положительный.

Эти тесты — только часть оценочной стратегии. Помимо них существуют отдельные оценки по безопасности, честности, стилю и возможностям. Сами тесты опубликованы на GitHub, так что любой может проверить методологию.

Как создаётся и обновляется спецификация

Model Spec пишут десятки сотрудников OpenAI из разных отделов: исследователи, инженеры, юристы, специалисты по безопасности и политике. Любой сотрудник может предложить изменения.

Обновления происходят по четырём каналам:

Публичная обратная связь: пользователи находят спорное поведение или пограничные случаи.
Внутренние баги: паттерны, обнаруженные при разработке и тестировании.
Изменения политик: новые требования безопасности или юридические ограничения.
Новые возможности: мультимодальность, агентность, работа с детьми требуют новых правил.

OpenAI также запустила механизмы коллективного выравнивания, собирая обратную связь от широкой аудитории для формирования политик поведения моделей.

Почему модели ещё не полностью соответствуют Model Spec

OpenAI открыто признаёт: текущие модели не идеально следуют спецификации. Причин несколько.

Обучение отстаёт от обновлений документа: спецификация часто описывает поведение «на 0–3 месяца вперёд». Обучение может непреднамеренно привить нежелательное поведение, и такие случаи компания рассматривает как серьёзные баги. Покрыть все сценарии обучением невозможно: «длинный хвост» пограничных случаев проявляется только на масштабе. Наконец, генерализация непредсказуема — модель может давать правильные ответы в обучении по неправильным причинам и ломаться в новых ситуациях.

Эта откровенность выгодно отличает публикацию от типичных PR-заявлений. OpenAI прямо говорит: вот куда мы целимся, вот где мы сейчас, и разрыв между ними существует.

Что это значит для разработчиков и пользователей

Разработчикам, которые используют ChatGPT или OpenAI API, Model Spec даёт публичный контракт на поведение модели. Если модель ведёт себя не так, как описано в спецификации, это баг, а не фича. Появляется конкретная точка отсчёта для отчётов об ошибках.

Бизнесу, строящему продукты на моделях OpenAI, спецификация обеспечивает предсказуемость. Понимание того, какие правила жёсткие, а какие настраиваемые, помогает проектировать системные промпты и пользовательский опыт.

А для отрасли в целом это прецедент. Пока только OpenAI публикует настолько детальную спецификацию поведения моделей. Anthropic имеет свою конституцию (Constitutional AI), Google — AI Principles, но ни один из этих документов не достигает уровня детализации Model Spec с его конкретными примерами, рубриками принятия решений и публичными метриками соответствия.

Итог

Model Spec — попытка OpenAI сделать поведение моделей прозрачным и подотчётным через конкретные правила с механизмами оценки и обратной связи.

Подход амбициозный и небезупречный. Критики справедливо отмечают, что OpenAI одновременно пишет правила и судит по ним свои же модели. Но сам факт публикации спецификации, тестов и метрик — шаг к стандарту, которого отрасль давно ждёт.

Если вы разработчик или менеджер продукта, работающий с большими языковыми моделями, Model Spec стоит прочитать целиком. Это рабочий документ, который определяет поведение инструментов, на которых вы строите продукты.

Model Spec от OpenAI: как устроен фреймворк поведения ИИ-моделей

Что такое Model Spec

Цепочка команд: кто главнее

Жёсткие правила и настраиваемые умолчания

Почему нельзя просто сказать «будь полезным и безопасным»

Model Spec Evals: как измеряют соответствие

Как создаётся и обновляется спецификация

Почему модели ещё не полностью соответствуют Model Spec

Что это значит для разработчиков и пользователей

Итог

Читайте также

Похожие статьи

OpenAI Rosalind Biodefense: зачем GPT-Rosalind дают биообороне

AI safety закон Иллинойса: SB 315 прошёл обе палаты

OpenAI и задача Эрдеша о единичных расстояниях

Андрей Карпатый в Anthropic: ставка на pre-training Claude