Claude 4: что нового в модели Anthropic
Anthropic выпустила Claude 4 — разбираем новую архитектуру, возможности и результаты бенчмарков флагманской модели.
Anthropic представила Claude 4 — четвёртое поколение языковой модели, которое включает три варианта: Opus (флагман), Sonnet (оптимальный баланс) и Haiku (быстрый и дешёвый). Модели стали доступны через API и claude.ai в начале 2026 года. Ключевые улучшения — расширенные рассуждения, улучшенная генерация кода и новые возможности для ИИ-агентов.
Архитектура и возможности
Claude 4 сохраняет контекстное окно в 200 000 токенов для всех моделей, но качество работы с длинным контекстом улучшилось. В тестах needle-in-a-haystack (поиск информации в длинном тексте) Claude 4 показывает точность 99.2% — на 3 процентных пункта выше Claude 3.5.
Расширенное мышление (extended thinking) — основное нововведение. Модель может «думать» перед ответом, выстраивая цепочку рассуждений длиной до 128 000 токенов. Это принципиально улучшает качество на задачах, требующих анализа: математика, программирование, стратегическое планирование.
Поддержка инструментов расширена: computer use (управление десктопом через скриншоты), MCP (Model Context Protocol) для интеграции с внешними сервисами, улучшенный tool use с параллельным вызовом нескольких инструментов.
Бенчмарки
Claude 4 Opus лидирует на нескольких ключевых бенчмарках. SWE-bench (реальные задачи по исправлению кода) — 72.5%, что превосходит GPT-4o (69%) и предыдущий Claude 3.5 Sonnet (65%). MATH (математические задачи) — 96.4%. GPQA Diamond (сложные научные вопросы) — 74.9%.
Claude 4 Sonnet — модель, которую большинство пользователей будут использовать для повседневных задач. Она показывает результаты на уровне Claude 3.5 Opus при стоимости в 5 раз ниже. На задачах программирования Sonnet 4 превосходит GPT-4o на 8–12%.
Что улучшилось для разработчиков
Генерация кода — главная область улучшений. Claude 4 лучше понимает контекст большого проекта, реже генерирует «заглушки» вместо реального кода, точнее следует инструкциям по стилю и архитектуре. В тестах на полноте реализации (не «TODO» вместо кода) Claude 4 показывает улучшение на 25% по сравнению с предыдущей версией.
Для работы с кодом через API добавлен новый параметр output_format, который гарантирует возврат только кода без markdown-обёрток и комментариев.
Модели рассуждения
Extended thinking делает Claude 4 конкурентом OpenAI o1 и o3 в задачах, требующих глубокого анализа. Модель сама решает, когда нужно «подумать» дольше — для простых вопросов отвечает сразу, для сложных — активирует расширенное мышление.
В отличие от o1/o3, мышление Claude 4 прозрачно — пользователь видит цепочку рассуждений (если запрашивает через API с параметром thinking). Это помогает отлаживать промпты и понимать логику модели.
Цены и доступность
Claude 4 Opus: $15 вход / $75 выход за миллион токенов. Claude 4 Sonnet: $3 / $15. Claude 4 Haiku: $0.25 / $1.25. Для подписчиков Claude Pro ($20/мес) доступны все модели с лимитами по использованию.
Модели доступны через API на api.anthropic.com, через Amazon Bedrock и Google Cloud Vertex AI. Для перехода с Claude 3.5 достаточно изменить название модели в API-запросе — формат совместимый.
Что это значит для рынка
Claude 4 укрепляет позицию Anthropic как ключевого конкурента OpenAI. На задачах программирования и длинного контекста Claude доминирует. GPT-4o сохраняет преимущество в мультимодальности и экосистеме (DALL-E, голосовой режим, плагины). Конкуренция выгодна пользователям — цены падают, качество растёт. Подробнее о рынке LLM в 2026 году.
Модельный ряд Claude 4: характеристики и бенчмарки
| Модель | Контекст | Скорость | Цена (вход/выход) | Лучшее применение |
|---|---|---|---|---|
| Claude Opus 4 | 200K токенов | Медленная | $15/$75 за 1M токенов | Сложный анализ, агенты |
| Claude Sonnet 4 | 200K токенов | Быстрая | $3/$15 за 1M токенов | Производство, API |
| Claude Haiku 4 | 200K токенов | Очень быстрая | $0.25/$1.25 за 1M токенов | Чат-боты, автоматизация |
Ключевые улучшения по сравнению с Claude 3.5
Расширенное мышление (Extended Thinking). Claude 4 Opus поддерживает режим глубокого рассуждения — модель «думает вслух» перед ответом, решая сложные математические задачи, головоломки и многошаговые проблемы. Аналог режима Thinking в o3 от OpenAI и R1 от DeepSeek.
Улучшенное следование инструкциям. Тесты показывают значительное снижение числа случаев, когда модель игнорирует системный промпт или упрощает сложные задачи. Claude 4 точнее выполняет форматирование, соблюдает ограничения и не добавляет лишних оговорок.
Компьютерное управление (Computer Use). API для управления браузером и рабочим столом теперь доступен в продакшене через Anthropic API. Модель видит скриншот экрана и выполняет клики, ввод текста, прокрутку.
Бенчмарки Claude 4 Opus vs конкуренты
| Тест | Claude 4 Opus | GPT-4o | Gemini 1.5 Pro |
|---|---|---|---|
| MMLU (знания) | 88.7% | 87.2% | 85.9% |
| HumanEval (код) | 92.0% | 90.2% | 86.8% |
| MATH (математика) | 73.0% | 76.6% | 67.7% |
| GPQA (наука) | 59.5% | 53.6% | 49.1% |
Что выбрать: Claude vs GPT-4o vs Gemini
Claude 4 Sonnet — лучший выбор для разработчиков, работающих с большими кодовыми базами. Точное следование инструкциям, понимание контекста на 200K токенов, минимум «галлюцинаций» в технических задачах.
GPT-4o предпочтителен для мультимодальных задач (изображения, аудио) и приложений с Function Calling — OpenAI API более зрелый и предсказуемый для продакшена.
Gemini 1.5 Pro выигрывает при работе с видео и очень длинными документами (контекст до 2M токенов) по значительно более низкой цене.
Характеристики Claude 4: сравнение с предыдущими версиями
| Параметр | Claude 3 Opus | Claude 3.7 Sonnet | Claude 4 (ожидается) |
|---|---|---|---|
| Контекст | 200K токенов | 200K токенов | 500K–1M токенов |
| SWE-bench Verified | ~48% | 62.3% | >70% (прогноз) |
| MMLU | 86.8% | 88.7% | >90% (прогноз) |
| Инференс скорость | ~50 tok/s | ~80 tok/s | >100 tok/s |
| Модальности | Текст + изображения | Текст + изображения | Текст + изображения + видео |
| Цена (Sonnet-уровень) | $3/$15 per 1M | $3/$15 per 1M | Ожидается снижение |
Что Anthropic анонсировала для Claude 4
По информации из официальных источников Anthropic и утечек, Claude 4 будет включать:
- Нативная поддержка видео: анализ видеопотока без предварительной транскрипции — конкурент Gemini 2.0 Pro
- Улучшенный computer use: агент сможет управлять браузером и ОС с меньшим числом ошибок (текущий Claude 3.7 допускает ошибки в ~40% сложных сценариев)
- Persistent memory: встроенная память между сессиями без необходимости передавать контекст вручную
- Расширенный reasoning: развитие extended thinking с поддержкой до 100K thinking tokens
Позиционирование в линейке
Anthropic планирует сохранить трёхуровневую структуру:
- Claude 4 Haiku: быстрый и дешёвый — для встраивания в продукты
- Claude 4 Sonnet: баланс возможностей и цены — основной рабочий класс
- Claude 4 Opus: максимальные возможности — для сложных агентных задач
Почему это важно для разработчиков
- API совместимость: Anthropic обещает обратную совместимость — переход с claude-3-7-sonnet-20250219 потребует только смены model ID
- Computer use API: с Claude 4 инструмент перейдёт из beta в GA — можно строить production-агентов
- Pricing: исторически каждое поколение снижало цену при равной производительности на 30–50%
- Инструменты: расширение tool_use с параллельным вызовом функций и better streaming
Сроки выхода
По последним данным (март 2026), Anthropic не называет точную дату, но ряд признаков указывает на Q2–Q3 2026: обновление модели в API (claude-3-7 → claude-4), активная работа по снижению галлюцинаций в reasoning mode. Подпишитесь на официальный блог Anthropic для первичной информации.