Модели рассуждения: o3, DeepSeek-R1 и новая парадигма
Модели рассуждения — новая парадигма в ИИ. Разбираем o3, DeepSeek-R1 и подход chain-of-thought.
До 2024 года языковые модели генерировали ответ «на лету» — токен за токеном, без промежуточного анализа. OpenAI o1, вышедшая в сентябре 2024, изменила подход: модель сначала «думает» — строит внутреннюю цепочку рассуждений — и только потом формирует ответ. Результат: скачок качества на математике (+30%), программировании (+20%) и сложном анализе. В 2025–2026 году подход подхватили все лидеры рынка.
Как работает chain-of-thought
Обычная модель получает вопрос и сразу начинает генерировать ответ. Модель рассуждения получает вопрос, генерирует «мысли» (скрытые от пользователя или видимые), и только после анализа формирует финальный ответ. Технически это реализовано через обучение с подкреплением: модель учится генерировать промежуточные рассуждения, которые приводят к правильным ответам.
Аналогия: студент, который решает уравнение в уме, ошибётся чаще, чем тот, кто записывает промежуточные шаги на бумаге. Модели рассуждения — «бумага» для ИИ.
OpenAI o3
o3 — третье поколение моделей рассуждения OpenAI (после o1 и o1-mini). Главное отличие от o1 — адаптивное время размышления. o3 сама определяет, сколько «думать»: для простого вопроса — секунду, для сложной математической задачи — минуту. Это снижает стоимость при сохранении качества.
Результаты: ARC-AGI (тест на абстрактное рассуждение) — 87.5%, что в 4 раза выше o1. AIME 2025 (олимпиадная математика) — 96.7%. Codeforces — рейтинг на уровне верхних 200 программистов мира.
DeepSeek-R1
DeepSeek-R1 — открытая модель рассуждения от китайского стартапа. Ключевое достижение: сопоставимое с o1 качество при открытом доступе к весам модели. DeepSeek обучил R1 за $5.5 миллионов — на два порядка дешевле, чем предполагаемые затраты OpenAI на o1.
Архитектурное отличие: DeepSeek-R1 использует MoE (Mixture of Experts) с 671B параметров, из которых активны только 37B при каждом запросе. Это делает модель экономичной при инференсе: она запускается на 8 GPU A100, в отличие от o3, которая доступна только через API OpenAI.
Цепочка рассуждений DeepSeek-R1 полностью открыта — можно изучать, как модель решает задачи. Это делает R1 ценным инструментом для исследователей.
Claude с Extended Thinking
Claude 4 поддерживает extended thinking — режим, в котором модель генерирует до 128K токенов внутренних рассуждений перед ответом. В отличие от o3, пользователь может запросить отображение цепочки мышления через API-параметр.
Extended thinking в Claude активируется автоматически для сложных задач или принудительно через параметр API. Это даёт разработчику контроль: для рутинных задач — обычный режим (быстро, дёшево), для сложных — мышление (медленнее, дороже, точнее).
Практические применения
Программирование. Модели рассуждения решают задачи, которые обычные LLM не могут: отладка сложных багов, архитектурные решения, рефакторинг с множеством зависимостей. ИИ-редакторы кода уже интегрируют режим рассуждения для сложных задач.
Математика и наука. o3 решает олимпиадные задачи на уровне верхних 1% участников. Для исследователей — инструмент для проверки гипотез и поиска ошибок в доказательствах.
Бизнес-анализ. Многоходовый анализ: «Стоит ли нашей компании выходить на рынок X?» — модель рассуждения проанализирует конкурентов, ёмкость рынка, риски и возможности, а не просто сгенерирует общие советы.
Ограничения
Модели рассуждения дороже и медленнее обычных. o3 может «думать» 30–60 секунд над сложной задачей — для интерактивного чата это долго. Стоимость в 3–10 раз выше обычных моделей. Для простых задач (классификация, перевод, генерация текста) рассуждения избыточны — обычная модель справится быстрее и дешевле. Правильный выбор модели экономит и время, и деньги.
Подробнее: Полный гайд по LLM для разработчиков
Как работают модели рассуждения
Модели рассуждения (reasoning models) перед выдачей ответа генерируют внутреннюю цепочку мыслей — chain of thought. Это позволяет решать задачи, требующие многоэтапного логического вывода: математику, физику, программирование, стратегические игры. В отличие от стандартных LLM, они тратят больше вычислений на инференс, но допускают меньше ошибок.
Сравнение o3, DeepSeek R1 и других reasoning-моделей
| Модель | Организация | Параметры | Цена (API) | Open Source |
|---|---|---|---|---|
| o3 | OpenAI | Закрытые | $10/$40 за 1M токенов | Нет |
| o3-mini | OpenAI | Закрытые | $1.1/$4.4 за 1M токенов | Нет |
| DeepSeek R1 | DeepSeek | 671B | $0.55/$2.19 за 1M токенов | Да (MIT) |
| DeepSeek R1-Distill-Qwen-32B | DeepSeek | 32B | Self-hosted | Да (MIT) |
| Claude 3.7 Sonnet (Thinking) | Anthropic | Закрытые | $3/$15 за 1M токенов | Нет |
| Gemini 2.0 Flash Thinking | Закрытые | Бесплатно (ограниченно) | Нет |
Бенчмарки: производительность на сложных задачах
| Тест | o3 (high) | DeepSeek R1 | Claude 3.7 (Thinking) |
|---|---|---|---|
| AIME 2024 (математика) | 96.7% | 79.8% | 80.0% |
| GPQA Diamond (наука) | 87.7% | 71.5% | 84.8% |
| SWE-bench Verified (код) | 71.7% | 49.2% | 70.3% |
| Codeforces (алгоритмы) | 2727 Elo | 1700+ Elo | ~1900 Elo |
DeepSeek R1: революция в open-source
DeepSeek R1 произвёл фурор в начале 2025 года — первая open-source reasoning-модель, сопоставимая с o1 от OpenAI по большинству бенчмарков. Обучена всего за $5.6 млн по данным DeepSeek, что на порядок дешевле аналогичных западных моделей.
Полная 671B-параметровая модель требует несколько A100 GPU для инференса. Для локального запуска подходят дистилляты: R1-Distill-Qwen-32B работает на одной видеокарте с 24GB VRAM при скорости 20–30 токенов/сек.
Когда использовать reasoning-модели
o3 → конкурентное программирование, математические олимпиады, научные расчёты, задачи где качество важнее скорости и стоимости
DeepSeek R1 → продакшен API с жёстким бюджетом, self-hosted решения, задачи на уровне o1 по цене в 10–20 раз ниже
o3-mini → баланс между стоимостью и качеством для промышленного применения
Для обычных задач (написание текстов, ответы на вопросы, суммаризация) reasoning-модели избыточны — используйте стандартные GPT-4o, Claude Sonnet или Gemini Flash.
Сравнение моделей рассуждения: o3, DeepSeek R1, Claude 3.7
| Модель | Компания | AIME 2024 | SWE-bench | Цена (1M выходных токенов) |
|---|---|---|---|---|
| o3 (high) | OpenAI | 96.7% | 71.7% | $60 |
| o3-mini (high) | OpenAI | 87.3% | 49.3% | $4.4 |
| DeepSeek R1 | DeepSeek | 79.8% | 49.2% | $2.19 |
| Claude 3.7 Sonnet (extended thinking) | Anthropic | 80% | 62.3% | $15 |
| Gemini 2.0 Flash Thinking | 70% | ~45% | Бесплатно в preview |
Как работает extended thinking / reasoning
Модели рассуждения генерируют промежуточные «мысли» перед финальным ответом:
- Chain-of-thought (CoT): модель явно записывает шаги решения — это виде пользователю (o3, Claude 3.7 extended thinking)
- Скрытое рассуждение: модель думает «внутри» без показа процесса — только результат (ранние версии o1)
- Scaling inference: больше токенов на thinking = выше точность, но дороже и медленнее
Когда использовать reasoning-модели
- Математика и логика: конкурсные задачи, уравнения, формальные доказательства — здесь o3 и Claude 3.7 thinking несопоставимо лучше обычных LLM
- Сложный код: рефакторинг архитектуры, отладка нетривиальных багов, code review крупных PR
- Планирование и анализ: многошаговые агентные задачи, где важна правильность каждого решения
- НЕ подходит для: быстрых чатов, простых вопросов, high-volume API — стоимость и latency слишком высоки
DeepSeek R1 vs o3: цена против качества
DeepSeek R1 предлагает 90% качества o3 при цене в 27× дешевле ($2.19 vs $60 за 1M выходных токенов). Открытые веса позволяют развернуть R1 локально на 8× H100 — стоимость инференса падает до $0.10–0.30 за 1M токенов при самостоятельном хостинге. Для стартапов с ограниченным бюджетом DeepSeek R1 — стандартный выбор для reasoning-задач в 2026 году.