DeepSeek

DeepSeek: ценовая война API-моделей начинается с V4 Pro

DeepSeek закрепляет скидку 75% на V4 Pro как постоянный API-прайсинг. Разбираем, почему это давит на GPT-5.5, Claude Opus 4.7 и экономику AI-агентов.

Проверено 27 мая 2026 года. DeepSeek закрепляет скидку 75% на deepseek-v4-pro как новый постоянный API-прайсинг после 31 мая 2026 года. Это уже не обычная промоакция, а прямой удар по цене output-токенов: $0.87 за 1 млн выходных токенов против $30 у GPT-5.5 и $25 у Claude Opus 4.7.

Именно поэтому эта новость важна не как очередной пересказ цен DeepSeek V4. Речь про ценовую войну API-моделей: когда агентные системы, длинный контекст и tool-calling начинают сжигать миллионы токенов, стоимость ответа становится архитектурным ограничением. Качество модели всё ещё решает. Но теперь у дорогих frontier API появился конкурент, который давит не лозунгами, а строкой в счёте.

Фон по апрельскому релизу V4 и длинному контексту мы уже разбирали в материале о том, как DeepSeek V4 меняет экономику frontier-моделей. Здесь угол уже другой: что меняется после того, как временная скидка на V4 Pro превращается в официальный уровень цены.

Официальная страница DeepSeek API pricing: V4 Pro показан со скидкой 75%, а примечание фиксирует переход на 1/4 исходной цены после 31 мая 2026 года. Источник: DeepSeek API Docs.

Что именно стало постоянным

На странице DeepSeek API Docs сейчас указано: deepseek-v4-pro стоит $0.003625 за 1 млн входных токенов при cache hit, $0.435 при cache miss и $0.87 за 1 млн выходных токенов. Рядом зачёркнуты старые уровни: $0.0145, $1.74 и $3.48. В примечании DeepSeek пишет, что после окончания промо 31 мая 2026 года в 15:59 UTC pricing V4 Pro будет официально скорректирован до четверти исходной цены.

V4 Flash дешевле и без этой акции: $0.0028 за cache hit, $0.14 за входной cache miss и $0.28 за output. В обеих моделях остаётся контекст 1 млн токенов, максимальный вывод 384 тыс. токенов, OpenAI-compatible endpoint, Anthropic-compatible endpoint, tool calls и JSON output. То есть DeepSeek снижает цену не на маленькую тестовую модель, а на рабочий API-контур V4.

Модель	Input cache hit, $ / 1M	Input cache miss, $ / 1M	Output, $ / 1M	Контекст
DeepSeek V4 Pro	0.003625	0.435	0.87	1M
DeepSeek V4 Flash	0.0028	0.14	0.28	1M
GPT-5.5	0.50	5.00	30.00	1.05M
Claude Opus 4.7	0.50	5.00	25.00	1M

По стандартному входу V4 Pro дешевле GPT-5.5 примерно в 11.5 раза. По output разрыв больше: около 34.5 раза против GPT-5.5 и 28.7 раза против Claude Opus 4.7. На cache hit сравнение становится совсем резким, но здесь важно не увлечься красивой арифметикой: итоговая стоимость задачи зависит от кэша, длины ответа, повторяемости префиксов, режима рассуждения и того, сколько попыток нужно модели для приемлемого результата.

Почему output-токены стали главным полем боя

У чат-бота output обычно выглядит как небольшая часть запроса. У агента всё иначе. Он планирует, вызывает инструменты, читает результаты, переписывает план, снова вызывает инструменты и генерирует длинные промежуточные ответы. В таких сценариях output может расти быстрее, чем полезный результат.

Это и есть причина, почему $0.87 за 1 млн выходных токенов звучит громче, чем скидка на вход. Если команда строит агента для кода, аналитики, фоновых проверок или пакетной обработки документов, она платит не только за «вопрос к модели». Она платит за весь цикл работы. В статье про tool-use tax у LLM-агентов мы уже показывали, как tool-calling может сам становиться источником лишних расходов. DeepSeek бьёт как раз туда.

Отдельно работает cache economics. Большие системные инструкции, policy-файлы, куски репозитория и длинная история сессии часто повторяются. Если провайдер резко удешевляет cache hit, архитекторы начинают иначе раскладывать контекст: что держать в постоянном префиксе, что вытаскивать через RAG, что отдавать дешёвой модели, а что отправлять в дорогой frontier API только на финальную проверку.

DeepSeek связывает низкий pricing V4 с эффективностью длинного контекста: меньше FLOPs и меньше KV cache относительно V3.2. Источник: DeepSeek API Docs / DeepSeek V4 release.

Где дешёвые токены не равны дешёвой задаче

Скидка DeepSeek не означает, что любая миграция сразу экономит 30 раз. Это слабая трактовка. У реальной задачи есть latency, качество tool use, стабильность JSON, безопасность данных, совместимость с SDK, ограничение concurrency и цена повторных прогонов после ошибок.

Есть и вопрос качества. The Decoder справедливо отмечает, что DeepSeek V4 всё ещё уступает GPT-5.5 и Opus 4.7 в сырой производительности на верхнем сегменте. Это совпадает с более широкой картиной: DeepSeek умеет давить цену, но не снимает с команды обязанность прогнать свои evals. Особенно если речь про код, финансовые документы, безопасность или автономные агенты с правом менять состояние системы.

Поэтому практичный вывод такой: V4 Pro и Flash надо рассматривать не как полную замену GPT-5.5 или Claude, а как новый ценовой слой. Flash может брать дешёвую фильтрацию, классификацию, черновой анализ и часть длинного контекста. V4 Pro — более тяжёлые reasoning и coding-задачи, где цена output уже критична. Закрытая модель остаётся там, где нужен максимальный запас качества, зрелый сервисный контур или корпоративные гарантии.

Что это меняет для OpenAI и Anthropic

OpenAI и Anthropic продают не только модель. Они продают платформу: инструменты, API, безопасность, поддержку, enterprise-контур, интеграции и предсказуемость. Это всё стоит денег. Но после такого шага DeepSeek им сложнее защищать высокий output-прайс одним аргументом «модель умнее».

Особенно болезненно это для сценариев, где качество «достаточно хорошее», а объём огромный: массовые проверки, агентные черновики, предварительное чтение репозиториев, обработка логов, тестовые прогоны, дешёвые ветки маршрутизации. В этих местах покупатель видит не абстрактный benchmark, а счёт за месяц.

Сравнение с GPT-5.5 здесь нужно держать аккуратно. У нас есть отдельный материал про DeepSeek V4 vs GPT-5.5, и новый текст не должен превращаться в повторный versus. Главное сейчас другое: DeepSeek перевела разговор из «кто умнее» в «сколько стоит держать агента работающим достаточно долго».

Что проверить перед миграцией

Разработчику перед переходом на DeepSeek API стоит проверить пять вещей на своей нагрузке, а не на чужой таблице цен.

Качество на собственных evals: код, reasoning, tool calls, JSON output, длинные инструкции.
Расход output-токенов на задачу, а не только цену за 1 млн токенов.
Долю cache hit: без повторяемого префикса часть экономии просто не проявится.
Latency и concurrency limit: у V4 Pro на официальной странице указан лимит 500, у Flash — 2500.
Политику данных и юридические ограничения, особенно для корпоративных документов и пользовательских данных.

Если эти проверки проходят, цена DeepSeek становится сильным аргументом. Если нет, таблица с дешёвыми токенами останется красивой, но бесполезной.

Итог

По состоянию на 27 мая 2026 года DeepSeek делает самый интересный ход не в бенчмарках, а в прайсе. Компания фактически говорит рынку: V4 Pro не просто временно дешевле, эта цена станет новой нормой после 31 мая. Для API-моделей это неприятный сигнал.

Закрытые frontier API остаются сильнее как полный продуктовый контур. Но там, где агентные системы потребляют много output и много повторяемого контекста, DeepSeek теперь ставит вопрос жёстко: за что именно вы платите премию в 20-30 раз, и всегда ли она оправдана?

Источники и дата проверки

Факты, цены и даты проверены 27 мая 2026 года. Основные источники: официальная страница DeepSeek API Docs: Models & Pricing, релиз DeepSeek V4 Preview Release, модельная страница GPT-5.5 Model в OpenAI API Docs, официальная страница Claude API Pricing и новостной материал The Decoder от 23 мая 2026 года.

DeepSeek: ценовая война API-моделей начинается с V4 Pro

Что именно стало постоянным

Почему output-токены стали главным полем боя

Где дешёвые токены не равны дешёвой задаче

Что это меняет для OpenAI и Anthropic

Что проверить перед миграцией

Итог

Источники и дата проверки

Похожие статьи

DeepSeek DSpark на двух DGX Spark: порт, баг и бенчмарки

DeepSeek DSpark: как ускорить инференс без новой модели

DeepSeek в расходах компаний США: что показал Ramp

DeepSeek V4 на Huawei Ascend: как Китай собирает суверенный AI-стек