DeepSeek: как китайский стартап бросил вызов OpenAI

История DeepSeek: от хедж-фонда High-Flyer к лидерству в open-source ИИ. Архитектурные прорывы, DeepSeek-V2 и влияние на глобальный рынок LLM.

DeepSeek: как китайский стартап бросил вызов OpenAI

В декабре 2023 года мало кто за пределами Китая знал о DeepSeek. К середине 2024-го компания стала одним из самых обсуждаемых игроков в мире ИИ. DeepSeek выпускает модели, которые конкурируют с GPT-4 и Claude по качеству, но при этом полностью открыты — веса, код, описание архитектуры. И делает это с бюджетом, который составляет малую долю от расходов американских конкурентов.

Откуда взялся DeepSeek

DeepSeek — подразделение High-Flyer, китайского квантитативного хедж-фонда из Ханчжоу с активами под управлением ~$8 миллиардов. Основатель High-Flyer Лян Вэньфэн (Liang Wenfeng) — выпускник Чжэцзянского университета, один из пионеров количественного трейдинга в Китае.

High-Flyer использовал ИИ для торговых стратегий задолго до ChatGPT. К 2023 году фонд накопил серьёзную GPU-инфраструктуру и экспертизу в обучении нейросетей. Лян решил направить эти ресурсы на разработку foundation models — так появился DeepSeek.

Важный контекст: в октябре 2022 года США ввели экспортные ограничения на продвинутые чипы NVIDIA для Китая. DeepSeek вынужден работать с менее мощным железом (NVIDIA A100 вместо H100), что мотивировало поиск архитектурных оптимизаций. Ограничения стали катализатором инноваций.

Ключевые модели

DeepSeek-V2 (май 2024)

Модель, которая привлекла внимание индустрии. 236 миллиардов параметров, но архитектура MoE (Mixture of Experts) означает, что при каждом запросе активируется только 21 миллиард. Результат: качество на уровне Llama 3 70B при стоимости инференса в 10–20 раз ниже.

Архитектурные прорывы DeepSeek-V2:

  • Multi-head Latent Attention (MLA) — сжимает KV cache в 5–13 раз по сравнению со стандартным Multi-Head Attention. Это критично для серверного инференса, где KV cache — основное узкое место по памяти.
  • DeepSeekMoE — более гранулированная архитектура экспертов с «shared experts» (общие для всех запросов) и «routed experts» (специализированные). 160 экспертов, из которых активируются 6 при каждом токене.

DeepSeek-V2 установил новый стандарт эффективности. API-стоимость: $0.14 за миллион входных токенов — в 100 раз дешевле GPT-4 Turbo на тот момент. При сопоставимом качестве.

DeepSeek-Coder V2 (июнь 2024)

Специализированная версия для программирования. 236B параметров (21B активных). По бенчмаркам кодинга (HumanEval, MBPP, LiveCodeBench) — на уровне GPT-4o и Claude 3.5 Sonnet. Поддерживает 338 языков программирования и контекстное окно 128K токенов.

DeepSeek-Coder стал одной из самых популярных open-source моделей для кодинга, конкурируя с CodeLlama и StarCoder.

DeepSeek-V3 (декабрь 2024)

Флагманская модель: 671B параметров (37B активных). Обучена на 14.8 триллионах токенов. По бенчмаркам — на уровне Claude 3.5 Sonnet и GPT-4o. Главная сенсация: стоимость обучения составила ~$5.5 миллионов — на два порядка меньше, чем оценки затрат на обучение GPT-4 ($100+ миллионов).

DeepSeek заявила, что использовала 2048 GPU NVIDIA H800 (экспортная версия H100 с пониженной пропускной способностью межсоединений). Для сравнения: Meta для обучения Llama 3 405B использовала 16 384 GPU H100.

Почему DeepSeek важен

Эффективность вместо грубой силы. DeepSeek доказал, что архитектурные инновации могут компенсировать недостаток вычислительных ресурсов. MLA, DeepSeekMoE, оптимизации обучения — это не косметические улучшения, а фундаментальные инженерные решения.

Open source без компромиссов. DeepSeek публикует не только веса моделей, но и подробные технические отчёты с описанием архитектуры, процесса обучения и экспериментов. Это позволяет исследователям воспроизводить и развивать результаты.

Вызов экономике ИИ. Если качественную модель можно обучить за $5 миллионов, а не за $100 миллионов, это меняет конкурентный ландшафт. Бариера входа снижаются. Аргумент «только крупнейшие компании могут создавать передовые модели» ослабевает.

Геополитический контекст. DeepSeek показал, что экспортные ограничения США не остановили развитие ИИ в Китае, а скорее перенаправили его в сторону эффективности. Этот результат повлиял на дискуссию о санкционной политике в Вашингтоне.

Влияние на рынок

Выпуск DeepSeek-V3 в декабре 2024 года вызвал реакцию, которую редко видно в технологической индустрии. Акции NVIDIA и других компаний сектора ИИ заметно просели — инвесторы пересмотрели предположение о том, что «больше GPU = лучше модели» и что расходы на обучение будут только расти.

Для разработчиков DeepSeek открыл возможности: модели, сопоставимые с лучшими закрытыми, доступны для скачивания, модификации и коммерческого использования. API DeepSeek — один из самых дешёвых на рынке, что делает его привлекательным для стартапов и проектов с ограниченным бюджетом.

Ограничения и вопросы

DeepSeek — китайская компания, и модели соответствуют требованиям китайского регулирования. Темы, связанные с политической цензурой (Тяньаньмэнь, Тайвань, Тибет), обрабатываются специфически. Для международных пользователей это потенциальная проблема, если модель используется в контексте, требующем неограниченного обсуждения.

Кроме того, долгосрочная стратегия DeepSeek неясна. Компания финансируется хедж-фондом и не привлекала внешних инвестиций. Это обеспечивает независимость, но вопрос устойчивости бизнес-модели остаётся открытым.

DeepSeek: история и значение

DeepSeek — китайский ИИ-стартап, основанный в 2023 году хедж-фондом High-Flyer Capital Management. В январе 2025 года выпустил DeepSeek R1 — первую open-source reasoning-модель, сопоставимую с o1 от OpenAI. Заявленная стоимость обучения: $5.6 млн против сотен миллионов у западных конкурентов. Это вызвало обрушение акций NVIDIA на 17% за один день.

Модельный ряд DeepSeek

МодельПараметрыТипЛицензияОсобенность
DeepSeek-V3671B (MoE)Базовая LLMMITЛучший open-source на дату выпуска
DeepSeek R1671B (MoE)ReasoningMITСопоставим с o1, 10x дешевле API
DeepSeek R1 Distill Qwen 32B32BReasoningMITЗапускается локально (24GB VRAM)
DeepSeek R1 Distill Llama 8B8BReasoningMITЛёгкая reasoning-модель
DeepSeek Coder V2236B (MoE)КодMITТоп по HumanEval среди open-source

Почему DeepSeek так дёшево обучается

Три ключевых инновации позволили снизить стоимость обучения:

  1. Multi-head Latent Attention (MLA) — сжатие KV-кэша, снижение памяти при инференсе на 60%
  2. DeepSeekMoE — более тонкая архитектура MoE с большим числом мелких экспертов
  3. FP8 Mixed Precision Training — обучение в FP8 вместо BF16, вдвое меньше памяти

Дополнительный фактор: доступ к кластеру NVIDIA H800 (менее мощные чипы без ограничений экспорта) стимулировал разработку алгоритмических оптимизаций вместо наращивания железа.

DeepSeek API vs OpenAI API

ПараметрDeepSeek R1OpenAI o3-mini
Входящие токены$0.55/1M$1.1/1M
Исходящие токены$2.19/1M$4.4/1M
Reasoning tokens$0.14/1MВключены в цену
AIME 202479.8%~80%

Доступность из России

DeepSeek API и веб-интерфейс chat.deepseek.com доступны из России без VPN. Это делает DeepSeek одной из немногих frontier-моделей, доступных российским разработчикам напрямую. Open-source модели (R1, V3) полностью свободны и развёртываются через Ollama или vLLM.


Читайте также