LLM

Claude 4: что нового в модели Anthropic

Anthropic выпустила Claude 4 — разбираем новую архитектуру, возможности и результаты бенчмарков флагманской модели.

Anthropic представила Claude 4 — четвёртое поколение языковой модели, которое включает три варианта: Opus (флагман), Sonnet (оптимальный баланс) и Haiku (быстрый и дешёвый). Модели стали доступны через API и claude.ai в начале 2026 года. Ключевые улучшения — расширенные рассуждения, улучшенная генерация кода и новые возможности для ИИ-агентов.

Архитектура и возможности

Claude 4 сохраняет контекстное окно в 200 000 токенов для всех моделей, но качество работы с длинным контекстом улучшилось. В тестах needle-in-a-haystack (поиск информации в длинном тексте) Claude 4 показывает точность 99.2% — на 3 процентных пункта выше Claude 3.5.

Расширенное мышление (extended thinking) — основное нововведение. Модель может «думать» перед ответом, выстраивая цепочку рассуждений длиной до 128 000 токенов. Это принципиально улучшает качество на задачах, требующих анализа: математика, программирование, стратегическое планирование.

Поддержка инструментов расширена: computer use (управление десктопом через скриншоты), MCP (Model Context Protocol) для интеграции с внешними сервисами, улучшенный tool use с параллельным вызовом нескольких инструментов.

Бенчмарки

Claude 4 Opus лидирует на нескольких ключевых бенчмарках. SWE-bench (реальные задачи по исправлению кода) — 72.5%, что превосходит GPT-4o (69%) и предыдущий Claude 3.5 Sonnet (65%). MATH (математические задачи) — 96.4%. GPQA Diamond (сложные научные вопросы) — 74.9%.

Claude 4 Sonnet — модель, которую большинство пользователей будут использовать для повседневных задач. Она показывает результаты на уровне Claude 3.5 Opus при стоимости в 5 раз ниже. На задачах программирования Sonnet 4 превосходит GPT-4o на 8–12%.

Что улучшилось для разработчиков

Генерация кода — главная область улучшений. Claude 4 лучше понимает контекст большого проекта, реже генерирует «заглушки» вместо реального кода, точнее следует инструкциям по стилю и архитектуре. В тестах на полноте реализации (не «TODO» вместо кода) Claude 4 показывает улучшение на 25% по сравнению с предыдущей версией.

Для работы с кодом через API добавлен новый параметр output_format, который гарантирует возврат только кода без markdown-обёрток и комментариев.

Модели рассуждения

Extended thinking делает Claude 4 конкурентом OpenAI o1 и o3 в задачах, требующих глубокого анализа. Модель сама решает, когда нужно «подумать» дольше — для простых вопросов отвечает сразу, для сложных — активирует расширенное мышление.

В отличие от o1/o3, мышление Claude 4 прозрачно — пользователь видит цепочку рассуждений (если запрашивает через API с параметром thinking). Это помогает отлаживать промпты и понимать логику модели.

Цены и доступность

Claude 4 Opus: $15 вход / $75 выход за миллион токенов. Claude 4 Sonnet: $3 / $15. Claude 4 Haiku: $0.25 / $1.25. Для подписчиков Claude Pro ($20/мес) доступны все модели с лимитами по использованию.

Модели доступны через API на api.anthropic.com, через Amazon Bedrock и Google Cloud Vertex AI. Для перехода с Claude 3.5 достаточно изменить название модели в API-запросе — формат совместимый.

Что это значит для рынка

Claude 4 укрепляет позицию Anthropic как ключевого конкурента OpenAI. На задачах программирования и длинного контекста Claude доминирует. GPT-4o сохраняет преимущество в мультимодальности и экосистеме (DALL-E, голосовой режим, плагины). Конкуренция выгодна пользователям — цены падают, качество растёт. Подробнее о рынке LLM в 2026 году.

Модельный ряд Claude 4: характеристики и бенчмарки

Модель	Контекст	Скорость	Цена (вход/выход)	Лучшее применение
Claude Opus 4	200K токенов	Медленная	$15/$75 за 1M токенов	Сложный анализ, агенты
Claude Sonnet 4	200K токенов	Быстрая	$3/$15 за 1M токенов	Производство, API
Claude Haiku 4	200K токенов	Очень быстрая	$0.25/$1.25 за 1M токенов	Чат-боты, автоматизация

Ключевые улучшения по сравнению с Claude 3.5

Расширенное мышление (Extended Thinking). Claude 4 Opus поддерживает режим глубокого рассуждения — модель «думает вслух» перед ответом, решая сложные математические задачи, головоломки и многошаговые проблемы. Аналог режима Thinking в o3 от OpenAI и R1 от DeepSeek.

Улучшенное следование инструкциям. Тесты показывают значительное снижение числа случаев, когда модель игнорирует системный промпт или упрощает сложные задачи. Claude 4 точнее выполняет форматирование, соблюдает ограничения и не добавляет лишних оговорок.

Компьютерное управление (Computer Use). API для управления браузером и рабочим столом теперь доступен в продакшене через Anthropic API. Модель видит скриншот экрана и выполняет клики, ввод текста, прокрутку.

Бенчмарки Claude 4 Opus vs конкуренты

Тест	Claude 4 Opus	GPT-4o	Gemini 1.5 Pro
MMLU (знания)	88.7%	87.2%	85.9%
HumanEval (код)	92.0%	90.2%	86.8%
MATH (математика)	73.0%	76.6%	67.7%
GPQA (наука)	59.5%	53.6%	49.1%

Что выбрать: Claude vs GPT-4o vs Gemini

Claude 4 Sonnet — лучший выбор для разработчиков, работающих с большими кодовыми базами. Точное следование инструкциям, понимание контекста на 200K токенов, минимум «галлюцинаций» в технических задачах.

GPT-4o предпочтителен для мультимодальных задач (изображения, аудио) и приложений с Function Calling — OpenAI API более зрелый и предсказуемый для продакшена.

Gemini 1.5 Pro выигрывает при работе с видео и очень длинными документами (контекст до 2M токенов) по значительно более низкой цене.

Характеристики Claude 4: сравнение с предыдущими версиями

Параметр	Claude 3 Opus	Claude 3.7 Sonnet	Claude 4 (ожидается)
Контекст	200K токенов	200K токенов	500K–1M токенов
SWE-bench Verified	~48%	62.3%	>70% (прогноз)
MMLU	86.8%	88.7%	>90% (прогноз)
Инференс скорость	~50 tok/s	~80 tok/s	>100 tok/s
Модальности	Текст + изображения	Текст + изображения	Текст + изображения + видео
Цена (Sonnet-уровень)	$3/$15 per 1M	$3/$15 per 1M	Ожидается снижение

Что Anthropic анонсировала для Claude 4

По информации из официальных источников Anthropic и утечек, Claude 4 будет включать:

Нативная поддержка видео: анализ видеопотока без предварительной транскрипции — конкурент Gemini 2.0 Pro
Улучшенный computer use: агент сможет управлять браузером и ОС с меньшим числом ошибок (текущий Claude 3.7 допускает ошибки в ~40% сложных сценариев)
Persistent memory: встроенная память между сессиями без необходимости передавать контекст вручную
Расширенный reasoning: развитие extended thinking с поддержкой до 100K thinking tokens

Позиционирование в линейке

Anthropic планирует сохранить трёхуровневую структуру:

Claude 4 Haiku: быстрый и дешёвый — для встраивания в продукты
Claude 4 Sonnet: баланс возможностей и цены — основной рабочий класс
Claude 4 Opus: максимальные возможности — для сложных агентных задач

Почему это важно для разработчиков

API совместимость: Anthropic обещает обратную совместимость — переход с claude-3-7-sonnet-20250219 потребует только смены model ID
Computer use API: с Claude 4 инструмент перейдёт из beta в GA — можно строить production-агентов
Pricing: исторически каждое поколение снижало цену при равной производительности на 30–50%
Инструменты: расширение tool_use с параллельным вызовом функций и better streaming

Сроки выхода

По последним данным (март 2026), Anthropic не называет точную дату, но ряд признаков указывает на Q2–Q3 2026: обновление модели в API (claude-3-7 → claude-4), активная работа по снижению галлюцинаций в reasoning mode. Подпишитесь на официальный блог Anthropic для первичной информации.