LLM

Модели рассуждения: o3, DeepSeek-R1 и новая парадигма

Модели рассуждения — новая парадигма в ИИ. Разбираем o3, DeepSeek-R1 и подход chain-of-thought.

До 2024 года языковые модели генерировали ответ «на лету» — токен за токеном, без промежуточного анализа. OpenAI o1, вышедшая в сентябре 2024, изменила подход: модель сначала «думает» — строит внутреннюю цепочку рассуждений — и только потом формирует ответ. Результат: скачок качества на математике (+30%), программировании (+20%) и сложном анализе. В 2025–2026 году подход подхватили все лидеры рынка.

Как работает chain-of-thought

Обычная модель получает вопрос и сразу начинает генерировать ответ. Модель рассуждения получает вопрос, генерирует «мысли» (скрытые от пользователя или видимые), и только после анализа формирует финальный ответ. Технически это реализовано через обучение с подкреплением: модель учится генерировать промежуточные рассуждения, которые приводят к правильным ответам.

Аналогия: студент, который решает уравнение в уме, ошибётся чаще, чем тот, кто записывает промежуточные шаги на бумаге. Модели рассуждения — «бумага» для ИИ.

OpenAI o3

o3 — третье поколение моделей рассуждения OpenAI (после o1 и o1-mini). Главное отличие от o1 — адаптивное время размышления. o3 сама определяет, сколько «думать»: для простого вопроса — секунду, для сложной математической задачи — минуту. Это снижает стоимость при сохранении качества.

Результаты: ARC-AGI (тест на абстрактное рассуждение) — 87.5%, что в 4 раза выше o1. AIME 2025 (олимпиадная математика) — 96.7%. Codeforces — рейтинг на уровне верхних 200 программистов мира.

DeepSeek-R1

DeepSeek-R1 — открытая модель рассуждения от китайского стартапа. Ключевое достижение: сопоставимое с o1 качество при открытом доступе к весам модели. DeepSeek обучил R1 за $5.5 миллионов — на два порядка дешевле, чем предполагаемые затраты OpenAI на o1.

Архитектурное отличие: DeepSeek-R1 использует MoE (Mixture of Experts) с 671B параметров, из которых активны только 37B при каждом запросе. Это делает модель экономичной при инференсе: она запускается на 8 GPU A100, в отличие от o3, которая доступна только через API OpenAI.

Цепочка рассуждений DeepSeek-R1 полностью открыта — можно изучать, как модель решает задачи. Это делает R1 ценным инструментом для исследователей.

Claude с Extended Thinking

Claude 4 поддерживает extended thinking — режим, в котором модель генерирует до 128K токенов внутренних рассуждений перед ответом. В отличие от o3, пользователь может запросить отображение цепочки мышления через API-параметр.

Extended thinking в Claude активируется автоматически для сложных задач или принудительно через параметр API. Это даёт разработчику контроль: для рутинных задач — обычный режим (быстро, дёшево), для сложных — мышление (медленнее, дороже, точнее).

Практические применения

Программирование. Модели рассуждения решают задачи, которые обычные LLM не могут: отладка сложных багов, архитектурные решения, рефакторинг с множеством зависимостей. ИИ-редакторы кода уже интегрируют режим рассуждения для сложных задач.

Математика и наука. o3 решает олимпиадные задачи на уровне верхних 1% участников. Для исследователей — инструмент для проверки гипотез и поиска ошибок в доказательствах.

Бизнес-анализ. Многоходовый анализ: «Стоит ли нашей компании выходить на рынок X?» — модель рассуждения проанализирует конкурентов, ёмкость рынка, риски и возможности, а не просто сгенерирует общие советы.

Ограничения

Модели рассуждения дороже и медленнее обычных. o3 может «думать» 30–60 секунд над сложной задачей — для интерактивного чата это долго. Стоимость в 3–10 раз выше обычных моделей. Для простых задач (классификация, перевод, генерация текста) рассуждения избыточны — обычная модель справится быстрее и дешевле. Правильный выбор модели экономит и время, и деньги.

Подробнее: Полный гайд по LLM для разработчиков

Как работают модели рассуждения

Модели рассуждения (reasoning models) перед выдачей ответа генерируют внутреннюю цепочку мыслей — chain of thought. Это позволяет решать задачи, требующие многоэтапного логического вывода: математику, физику, программирование, стратегические игры. В отличие от стандартных LLM, они тратят больше вычислений на инференс, но допускают меньше ошибок.

Сравнение o3, DeepSeek R1 и других reasoning-моделей

Модель	Организация	Параметры	Цена (API)	Open Source
o3	OpenAI	Закрытые	$10/$40 за 1M токенов	Нет
o3-mini	OpenAI	Закрытые	$1.1/$4.4 за 1M токенов	Нет
DeepSeek R1	DeepSeek	671B	$0.55/$2.19 за 1M токенов	Да (MIT)
DeepSeek R1-Distill-Qwen-32B	DeepSeek	32B	Self-hosted	Да (MIT)
Claude 3.7 Sonnet (Thinking)	Anthropic	Закрытые	$3/$15 за 1M токенов	Нет
Gemini 2.0 Flash Thinking	Google	Закрытые	Бесплатно (ограниченно)	Нет

Бенчмарки: производительность на сложных задачах

Тест	o3 (high)	DeepSeek R1	Claude 3.7 (Thinking)
AIME 2024 (математика)	96.7%	79.8%	80.0%
GPQA Diamond (наука)	87.7%	71.5%	84.8%
SWE-bench Verified (код)	71.7%	49.2%	70.3%
Codeforces (алгоритмы)	2727 Elo	1700+ Elo	~1900 Elo

DeepSeek R1: революция в open-source

DeepSeek R1 произвёл фурор в начале 2025 года — первая open-source reasoning-модель, сопоставимая с o1 от OpenAI по большинству бенчмарков. Обучена всего за $5.6 млн по данным DeepSeek, что на порядок дешевле аналогичных западных моделей.

Полная 671B-параметровая модель требует несколько A100 GPU для инференса. Для локального запуска подходят дистилляты: R1-Distill-Qwen-32B работает на одной видеокарте с 24GB VRAM при скорости 20–30 токенов/сек.

Когда использовать reasoning-модели

o3 → конкурентное программирование, математические олимпиады, научные расчёты, задачи где качество важнее скорости и стоимости

DeepSeek R1 → продакшен API с жёстким бюджетом, self-hosted решения, задачи на уровне o1 по цене в 10–20 раз ниже

o3-mini → баланс между стоимостью и качеством для промышленного применения

Для обычных задач (написание текстов, ответы на вопросы, суммаризация) reasoning-модели избыточны — используйте стандартные GPT-4o, Claude Sonnet или Gemini Flash.

Сравнение моделей рассуждения: o3, DeepSeek R1, Claude 3.7

Модель	Компания	AIME 2024	SWE-bench	Цена (1M выходных токенов)
o3 (high)	OpenAI	96.7%	71.7%	$60
o3-mini (high)	OpenAI	87.3%	49.3%	$4.4
DeepSeek R1	DeepSeek	79.8%	49.2%	$2.19
Claude 3.7 Sonnet (extended thinking)	Anthropic	80%	62.3%	$15
Gemini 2.0 Flash Thinking	Google	70%	~45%	Бесплатно в preview

Как работает extended thinking / reasoning

Модели рассуждения генерируют промежуточные «мысли» перед финальным ответом:

Chain-of-thought (CoT): модель явно записывает шаги решения — это виде пользователю (o3, Claude 3.7 extended thinking)
Скрытое рассуждение: модель думает «внутри» без показа процесса — только результат (ранние версии o1)
Scaling inference: больше токенов на thinking = выше точность, но дороже и медленнее

Когда использовать reasoning-модели

Математика и логика: конкурсные задачи, уравнения, формальные доказательства — здесь o3 и Claude 3.7 thinking несопоставимо лучше обычных LLM
Сложный код: рефакторинг архитектуры, отладка нетривиальных багов, code review крупных PR
Планирование и анализ: многошаговые агентные задачи, где важна правильность каждого решения
НЕ подходит для: быстрых чатов, простых вопросов, high-volume API — стоимость и latency слишком высоки

DeepSeek R1 vs o3: цена против качества

DeepSeek R1 предлагает 90% качества o3 при цене в 27× дешевле ($2.19 vs $60 за 1M выходных токенов). Открытые веса позволяют развернуть R1 локально на 8× H100 — стоимость инференса падает до $0.10–0.30 за 1M токенов при самостоятельном хостинге. Для стартапов с ограниченным бюджетом DeepSeek R1 — стандартный выбор для reasoning-задач в 2026 году.

Модели рассуждения: o3, DeepSeek-R1 и новая парадигма

Как работает chain-of-thought

OpenAI o3

DeepSeek-R1

Claude с Extended Thinking

Практические применения

Ограничения

Как работают модели рассуждения

Сравнение o3, DeepSeek R1 и других reasoning-моделей

Бенчмарки: производительность на сложных задачах

DeepSeek R1: революция в open-source

Когда использовать reasoning-модели

Сравнение моделей рассуждения: o3, DeepSeek R1, Claude 3.7

Как работает extended thinking / reasoning

Когда использовать reasoning-модели

DeepSeek R1 vs o3: цена против качества

Читать ещё

Claude vs Gemini: детальное сравнение для разработчиков

Главные AI-релизы марта 2026: Claude 4.6, GPT-4.5 и Gemini 2.5

Тренды ИИ на 2026 год: прогнозы и реальность