Модели рассуждения: o3, DeepSeek-R1 и новая парадигма

Модели рассуждения — новая парадигма в ИИ. Разбираем o3, DeepSeek-R1 и подход chain-of-thought.

Модели рассуждения: o3, DeepSeek-R1 и новая парадигма

До 2024 года языковые модели генерировали ответ «на лету» — токен за токеном, без промежуточного анализа. OpenAI o1, вышедшая в сентябре 2024, изменила подход: модель сначала «думает» — строит внутреннюю цепочку рассуждений — и только потом формирует ответ. Результат: скачок качества на математике (+30%), программировании (+20%) и сложном анализе. В 2025–2026 году подход подхватили все лидеры рынка.

Как работает chain-of-thought

Обычная модель получает вопрос и сразу начинает генерировать ответ. Модель рассуждения получает вопрос, генерирует «мысли» (скрытые от пользователя или видимые), и только после анализа формирует финальный ответ. Технически это реализовано через обучение с подкреплением: модель учится генерировать промежуточные рассуждения, которые приводят к правильным ответам.

Аналогия: студент, который решает уравнение в уме, ошибётся чаще, чем тот, кто записывает промежуточные шаги на бумаге. Модели рассуждения — «бумага» для ИИ.

OpenAI o3

o3 — третье поколение моделей рассуждения OpenAI (после o1 и o1-mini). Главное отличие от o1 — адаптивное время размышления. o3 сама определяет, сколько «думать»: для простого вопроса — секунду, для сложной математической задачи — минуту. Это снижает стоимость при сохранении качества.

Результаты: ARC-AGI (тест на абстрактное рассуждение) — 87.5%, что в 4 раза выше o1. AIME 2025 (олимпиадная математика) — 96.7%. Codeforces — рейтинг на уровне верхних 200 программистов мира.

DeepSeek-R1

DeepSeek-R1 — открытая модель рассуждения от китайского стартапа. Ключевое достижение: сопоставимое с o1 качество при открытом доступе к весам модели. DeepSeek обучил R1 за $5.5 миллионов — на два порядка дешевле, чем предполагаемые затраты OpenAI на o1.

Архитектурное отличие: DeepSeek-R1 использует MoE (Mixture of Experts) с 671B параметров, из которых активны только 37B при каждом запросе. Это делает модель экономичной при инференсе: она запускается на 8 GPU A100, в отличие от o3, которая доступна только через API OpenAI.

Цепочка рассуждений DeepSeek-R1 полностью открыта — можно изучать, как модель решает задачи. Это делает R1 ценным инструментом для исследователей.

Claude с Extended Thinking

Claude 4 поддерживает extended thinking — режим, в котором модель генерирует до 128K токенов внутренних рассуждений перед ответом. В отличие от o3, пользователь может запросить отображение цепочки мышления через API-параметр.

Extended thinking в Claude активируется автоматически для сложных задач или принудительно через параметр API. Это даёт разработчику контроль: для рутинных задач — обычный режим (быстро, дёшево), для сложных — мышление (медленнее, дороже, точнее).

Практические применения

Программирование. Модели рассуждения решают задачи, которые обычные LLM не могут: отладка сложных багов, архитектурные решения, рефакторинг с множеством зависимостей. ИИ-редакторы кода уже интегрируют режим рассуждения для сложных задач.

Математика и наука. o3 решает олимпиадные задачи на уровне верхних 1% участников. Для исследователей — инструмент для проверки гипотез и поиска ошибок в доказательствах.

Бизнес-анализ. Многоходовый анализ: «Стоит ли нашей компании выходить на рынок X?» — модель рассуждения проанализирует конкурентов, ёмкость рынка, риски и возможности, а не просто сгенерирует общие советы.

Ограничения

Модели рассуждения дороже и медленнее обычных. o3 может «думать» 30–60 секунд над сложной задачей — для интерактивного чата это долго. Стоимость в 3–10 раз выше обычных моделей. Для простых задач (классификация, перевод, генерация текста) рассуждения избыточны — обычная модель справится быстрее и дешевле. Правильный выбор модели экономит и время, и деньги.

Подробнее: Полный гайд по LLM для разработчиков

Как работают модели рассуждения

Модели рассуждения (reasoning models) перед выдачей ответа генерируют внутреннюю цепочку мыслей — chain of thought. Это позволяет решать задачи, требующие многоэтапного логического вывода: математику, физику, программирование, стратегические игры. В отличие от стандартных LLM, они тратят больше вычислений на инференс, но допускают меньше ошибок.

Сравнение o3, DeepSeek R1 и других reasoning-моделей

МодельОрганизацияПараметрыЦена (API)Open Source
o3OpenAIЗакрытые$10/$40 за 1M токеновНет
o3-miniOpenAIЗакрытые$1.1/$4.4 за 1M токеновНет
DeepSeek R1DeepSeek671B$0.55/$2.19 за 1M токеновДа (MIT)
DeepSeek R1-Distill-Qwen-32BDeepSeek32BSelf-hostedДа (MIT)
Claude 3.7 Sonnet (Thinking)AnthropicЗакрытые$3/$15 за 1M токеновНет
Gemini 2.0 Flash ThinkingGoogleЗакрытыеБесплатно (ограниченно)Нет

Бенчмарки: производительность на сложных задачах

Тестo3 (high)DeepSeek R1Claude 3.7 (Thinking)
AIME 2024 (математика)96.7%79.8%80.0%
GPQA Diamond (наука)87.7%71.5%84.8%
SWE-bench Verified (код)71.7%49.2%70.3%
Codeforces (алгоритмы)2727 Elo1700+ Elo~1900 Elo

DeepSeek R1: революция в open-source

DeepSeek R1 произвёл фурор в начале 2025 года — первая open-source reasoning-модель, сопоставимая с o1 от OpenAI по большинству бенчмарков. Обучена всего за $5.6 млн по данным DeepSeek, что на порядок дешевле аналогичных западных моделей.

Полная 671B-параметровая модель требует несколько A100 GPU для инференса. Для локального запуска подходят дистилляты: R1-Distill-Qwen-32B работает на одной видеокарте с 24GB VRAM при скорости 20–30 токенов/сек.

Когда использовать reasoning-модели

o3 → конкурентное программирование, математические олимпиады, научные расчёты, задачи где качество важнее скорости и стоимости

DeepSeek R1 → продакшен API с жёстким бюджетом, self-hosted решения, задачи на уровне o1 по цене в 10–20 раз ниже

o3-mini → баланс между стоимостью и качеством для промышленного применения

Для обычных задач (написание текстов, ответы на вопросы, суммаризация) reasoning-модели избыточны — используйте стандартные GPT-4o, Claude Sonnet или Gemini Flash.

Сравнение моделей рассуждения: o3, DeepSeek R1, Claude 3.7

МодельКомпанияAIME 2024SWE-benchЦена (1M выходных токенов)
o3 (high)OpenAI96.7%71.7%$60
o3-mini (high)OpenAI87.3%49.3%$4.4
DeepSeek R1DeepSeek79.8%49.2%$2.19
Claude 3.7 Sonnet (extended thinking)Anthropic80%62.3%$15
Gemini 2.0 Flash ThinkingGoogle70%~45%Бесплатно в preview

Как работает extended thinking / reasoning

Модели рассуждения генерируют промежуточные «мысли» перед финальным ответом:

  • Chain-of-thought (CoT): модель явно записывает шаги решения — это виде пользователю (o3, Claude 3.7 extended thinking)
  • Скрытое рассуждение: модель думает «внутри» без показа процесса — только результат (ранние версии o1)
  • Scaling inference: больше токенов на thinking = выше точность, но дороже и медленнее

Когда использовать reasoning-модели

  • Математика и логика: конкурсные задачи, уравнения, формальные доказательства — здесь o3 и Claude 3.7 thinking несопоставимо лучше обычных LLM
  • Сложный код: рефакторинг архитектуры, отладка нетривиальных багов, code review крупных PR
  • Планирование и анализ: многошаговые агентные задачи, где важна правильность каждого решения
  • НЕ подходит для: быстрых чатов, простых вопросов, high-volume API — стоимость и latency слишком высоки

DeepSeek R1 vs o3: цена против качества

DeepSeek R1 предлагает 90% качества o3 при цене в 27× дешевле ($2.19 vs $60 за 1M выходных токенов). Открытые веса позволяют развернуть R1 локально на 8× H100 — стоимость инференса падает до $0.10–0.30 за 1M токенов при самостоятельном хостинге. Для стартапов с ограниченным бюджетом DeepSeek R1 — стандартный выбор для reasoning-задач в 2026 году.