Claude 4: что нового в модели Anthropic

Anthropic выпустила Claude 4 — разбираем новую архитектуру, возможности и результаты бенчмарков флагманской модели.

Claude 4: что нового в модели Anthropic

Anthropic представила Claude 4 — четвёртое поколение языковой модели, которое включает три варианта: Opus (флагман), Sonnet (оптимальный баланс) и Haiku (быстрый и дешёвый). Модели стали доступны через API и claude.ai в начале 2026 года. Ключевые улучшения — расширенные рассуждения, улучшенная генерация кода и новые возможности для ИИ-агентов.

Архитектура и возможности

Claude 4 сохраняет контекстное окно в 200 000 токенов для всех моделей, но качество работы с длинным контекстом улучшилось. В тестах needle-in-a-haystack (поиск информации в длинном тексте) Claude 4 показывает точность 99.2% — на 3 процентных пункта выше Claude 3.5.

Расширенное мышление (extended thinking) — основное нововведение. Модель может «думать» перед ответом, выстраивая цепочку рассуждений длиной до 128 000 токенов. Это принципиально улучшает качество на задачах, требующих анализа: математика, программирование, стратегическое планирование.

Поддержка инструментов расширена: computer use (управление десктопом через скриншоты), MCP (Model Context Protocol) для интеграции с внешними сервисами, улучшенный tool use с параллельным вызовом нескольких инструментов.

Бенчмарки

Claude 4 Opus лидирует на нескольких ключевых бенчмарках. SWE-bench (реальные задачи по исправлению кода) — 72.5%, что превосходит GPT-4o (69%) и предыдущий Claude 3.5 Sonnet (65%). MATH (математические задачи) — 96.4%. GPQA Diamond (сложные научные вопросы) — 74.9%.

Claude 4 Sonnet — модель, которую большинство пользователей будут использовать для повседневных задач. Она показывает результаты на уровне Claude 3.5 Opus при стоимости в 5 раз ниже. На задачах программирования Sonnet 4 превосходит GPT-4o на 8–12%.

Что улучшилось для разработчиков

Генерация кода — главная область улучшений. Claude 4 лучше понимает контекст большого проекта, реже генерирует «заглушки» вместо реального кода, точнее следует инструкциям по стилю и архитектуре. В тестах на полноте реализации (не «TODO» вместо кода) Claude 4 показывает улучшение на 25% по сравнению с предыдущей версией.

Для работы с кодом через API добавлен новый параметр output_format, который гарантирует возврат только кода без markdown-обёрток и комментариев.

Модели рассуждения

Extended thinking делает Claude 4 конкурентом OpenAI o1 и o3 в задачах, требующих глубокого анализа. Модель сама решает, когда нужно «подумать» дольше — для простых вопросов отвечает сразу, для сложных — активирует расширенное мышление.

В отличие от o1/o3, мышление Claude 4 прозрачно — пользователь видит цепочку рассуждений (если запрашивает через API с параметром thinking). Это помогает отлаживать промпты и понимать логику модели.

Цены и доступность

Claude 4 Opus: $15 вход / $75 выход за миллион токенов. Claude 4 Sonnet: $3 / $15. Claude 4 Haiku: $0.25 / $1.25. Для подписчиков Claude Pro ($20/мес) доступны все модели с лимитами по использованию.

Модели доступны через API на api.anthropic.com, через Amazon Bedrock и Google Cloud Vertex AI. Для перехода с Claude 3.5 достаточно изменить название модели в API-запросе — формат совместимый.

Что это значит для рынка

Claude 4 укрепляет позицию Anthropic как ключевого конкурента OpenAI. На задачах программирования и длинного контекста Claude доминирует. GPT-4o сохраняет преимущество в мультимодальности и экосистеме (DALL-E, голосовой режим, плагины). Конкуренция выгодна пользователям — цены падают, качество растёт. Подробнее о рынке LLM в 2026 году.

Модельный ряд Claude 4: характеристики и бенчмарки

МодельКонтекстСкоростьЦена (вход/выход)Лучшее применение
Claude Opus 4200K токеновМедленная$15/$75 за 1M токеновСложный анализ, агенты
Claude Sonnet 4200K токеновБыстрая$3/$15 за 1M токеновПроизводство, API
Claude Haiku 4200K токеновОчень быстрая$0.25/$1.25 за 1M токеновЧат-боты, автоматизация

Ключевые улучшения по сравнению с Claude 3.5

Расширенное мышление (Extended Thinking). Claude 4 Opus поддерживает режим глубокого рассуждения — модель «думает вслух» перед ответом, решая сложные математические задачи, головоломки и многошаговые проблемы. Аналог режима Thinking в o3 от OpenAI и R1 от DeepSeek.

Улучшенное следование инструкциям. Тесты показывают значительное снижение числа случаев, когда модель игнорирует системный промпт или упрощает сложные задачи. Claude 4 точнее выполняет форматирование, соблюдает ограничения и не добавляет лишних оговорок.

Компьютерное управление (Computer Use). API для управления браузером и рабочим столом теперь доступен в продакшене через Anthropic API. Модель видит скриншот экрана и выполняет клики, ввод текста, прокрутку.

Бенчмарки Claude 4 Opus vs конкуренты

ТестClaude 4 OpusGPT-4oGemini 1.5 Pro
MMLU (знания)88.7%87.2%85.9%
HumanEval (код)92.0%90.2%86.8%
MATH (математика)73.0%76.6%67.7%
GPQA (наука)59.5%53.6%49.1%

Что выбрать: Claude vs GPT-4o vs Gemini

Claude 4 Sonnet — лучший выбор для разработчиков, работающих с большими кодовыми базами. Точное следование инструкциям, понимание контекста на 200K токенов, минимум «галлюцинаций» в технических задачах.

GPT-4o предпочтителен для мультимодальных задач (изображения, аудио) и приложений с Function Calling — OpenAI API более зрелый и предсказуемый для продакшена.

Gemini 1.5 Pro выигрывает при работе с видео и очень длинными документами (контекст до 2M токенов) по значительно более низкой цене.

Характеристики Claude 4: сравнение с предыдущими версиями

ПараметрClaude 3 OpusClaude 3.7 SonnetClaude 4 (ожидается)
Контекст200K токенов200K токенов500K–1M токенов
SWE-bench Verified~48%62.3%>70% (прогноз)
MMLU86.8%88.7%>90% (прогноз)
Инференс скорость~50 tok/s~80 tok/s>100 tok/s
МодальностиТекст + изображенияТекст + изображенияТекст + изображения + видео
Цена (Sonnet-уровень)$3/$15 per 1M$3/$15 per 1MОжидается снижение

Что Anthropic анонсировала для Claude 4

По информации из официальных источников Anthropic и утечек, Claude 4 будет включать:

  • Нативная поддержка видео: анализ видеопотока без предварительной транскрипции — конкурент Gemini 2.0 Pro
  • Улучшенный computer use: агент сможет управлять браузером и ОС с меньшим числом ошибок (текущий Claude 3.7 допускает ошибки в ~40% сложных сценариев)
  • Persistent memory: встроенная память между сессиями без необходимости передавать контекст вручную
  • Расширенный reasoning: развитие extended thinking с поддержкой до 100K thinking tokens

Позиционирование в линейке

Anthropic планирует сохранить трёхуровневую структуру:

  • Claude 4 Haiku: быстрый и дешёвый — для встраивания в продукты
  • Claude 4 Sonnet: баланс возможностей и цены — основной рабочий класс
  • Claude 4 Opus: максимальные возможности — для сложных агентных задач

Почему это важно для разработчиков

  • API совместимость: Anthropic обещает обратную совместимость — переход с claude-3-7-sonnet-20250219 потребует только смены model ID
  • Computer use API: с Claude 4 инструмент перейдёт из beta в GA — можно строить production-агентов
  • Pricing: исторически каждое поколение снижало цену при равной производительности на 30–50%
  • Инструменты: расширение tool_use с параллельным вызовом функций и better streaming

Сроки выхода

По последним данным (март 2026), Anthropic не называет точную дату, но ряд признаков указывает на Q2–Q3 2026: обновление модели в API (claude-3-7 → claude-4), активная работа по снижению галлюцинаций в reasoning mode. Подпишитесь на официальный блог Anthropic для первичной информации.