DeepSeek: как китайский стартап бросил вызов OpenAI
История DeepSeek: от хедж-фонда High-Flyer к лидерству в open-source ИИ. Архитектурные прорывы, DeepSeek-V2 и влияние на глобальный рынок LLM.
В декабре 2023 года мало кто за пределами Китая знал о DeepSeek. К середине 2024-го компания стала одним из самых обсуждаемых игроков в мире ИИ. DeepSeek выпускает модели, которые конкурируют с GPT-4 и Claude по качеству, но при этом полностью открыты — веса, код, описание архитектуры. И делает это с бюджетом, который составляет малую долю от расходов американских конкурентов.
Откуда взялся DeepSeek
DeepSeek — подразделение High-Flyer, китайского квантитативного хедж-фонда из Ханчжоу с активами под управлением ~$8 миллиардов. Основатель High-Flyer Лян Вэньфэн (Liang Wenfeng) — выпускник Чжэцзянского университета, один из пионеров количественного трейдинга в Китае.
High-Flyer использовал ИИ для торговых стратегий задолго до ChatGPT. К 2023 году фонд накопил серьёзную GPU-инфраструктуру и экспертизу в обучении нейросетей. Лян решил направить эти ресурсы на разработку foundation models — так появился DeepSeek.
Важный контекст: в октябре 2022 года США ввели экспортные ограничения на продвинутые чипы NVIDIA для Китая. DeepSeek вынужден работать с менее мощным железом (NVIDIA A100 вместо H100), что мотивировало поиск архитектурных оптимизаций. Ограничения стали катализатором инноваций.
Ключевые модели
DeepSeek-V2 (май 2024)
Модель, которая привлекла внимание индустрии. 236 миллиардов параметров, но архитектура MoE (Mixture of Experts) означает, что при каждом запросе активируется только 21 миллиард. Результат: качество на уровне Llama 3 70B при стоимости инференса в 10–20 раз ниже.
Архитектурные прорывы DeepSeek-V2:
- Multi-head Latent Attention (MLA) — сжимает KV cache в 5–13 раз по сравнению со стандартным Multi-Head Attention. Это критично для серверного инференса, где KV cache — основное узкое место по памяти.
- DeepSeekMoE — более гранулированная архитектура экспертов с «shared experts» (общие для всех запросов) и «routed experts» (специализированные). 160 экспертов, из которых активируются 6 при каждом токене.
DeepSeek-V2 установил новый стандарт эффективности. API-стоимость: $0.14 за миллион входных токенов — в 100 раз дешевле GPT-4 Turbo на тот момент. При сопоставимом качестве.
DeepSeek-Coder V2 (июнь 2024)
Специализированная версия для программирования. 236B параметров (21B активных). По бенчмаркам кодинга (HumanEval, MBPP, LiveCodeBench) — на уровне GPT-4o и Claude 3.5 Sonnet. Поддерживает 338 языков программирования и контекстное окно 128K токенов.
DeepSeek-Coder стал одной из самых популярных open-source моделей для кодинга, конкурируя с CodeLlama и StarCoder.
DeepSeek-V3 (декабрь 2024)
Флагманская модель: 671B параметров (37B активных). Обучена на 14.8 триллионах токенов. По бенчмаркам — на уровне Claude 3.5 Sonnet и GPT-4o. Главная сенсация: стоимость обучения составила ~$5.5 миллионов — на два порядка меньше, чем оценки затрат на обучение GPT-4 ($100+ миллионов).
DeepSeek заявила, что использовала 2048 GPU NVIDIA H800 (экспортная версия H100 с пониженной пропускной способностью межсоединений). Для сравнения: Meta для обучения Llama 3 405B использовала 16 384 GPU H100.
Почему DeepSeek важен
Эффективность вместо грубой силы. DeepSeek доказал, что архитектурные инновации могут компенсировать недостаток вычислительных ресурсов. MLA, DeepSeekMoE, оптимизации обучения — это не косметические улучшения, а фундаментальные инженерные решения.
Open source без компромиссов. DeepSeek публикует не только веса моделей, но и подробные технические отчёты с описанием архитектуры, процесса обучения и экспериментов. Это позволяет исследователям воспроизводить и развивать результаты.
Вызов экономике ИИ. Если качественную модель можно обучить за $5 миллионов, а не за $100 миллионов, это меняет конкурентный ландшафт. Бариера входа снижаются. Аргумент «только крупнейшие компании могут создавать передовые модели» ослабевает.
Геополитический контекст. DeepSeek показал, что экспортные ограничения США не остановили развитие ИИ в Китае, а скорее перенаправили его в сторону эффективности. Этот результат повлиял на дискуссию о санкционной политике в Вашингтоне.
Влияние на рынок
Выпуск DeepSeek-V3 в декабре 2024 года вызвал реакцию, которую редко видно в технологической индустрии. Акции NVIDIA и других компаний сектора ИИ заметно просели — инвесторы пересмотрели предположение о том, что «больше GPU = лучше модели» и что расходы на обучение будут только расти.
Для разработчиков DeepSeek открыл возможности: модели, сопоставимые с лучшими закрытыми, доступны для скачивания, модификации и коммерческого использования. API DeepSeek — один из самых дешёвых на рынке, что делает его привлекательным для стартапов и проектов с ограниченным бюджетом.
Ограничения и вопросы
DeepSeek — китайская компания, и модели соответствуют требованиям китайского регулирования. Темы, связанные с политической цензурой (Тяньаньмэнь, Тайвань, Тибет), обрабатываются специфически. Для международных пользователей это потенциальная проблема, если модель используется в контексте, требующем неограниченного обсуждения.
Кроме того, долгосрочная стратегия DeepSeek неясна. Компания финансируется хедж-фондом и не привлекала внешних инвестиций. Это обеспечивает независимость, но вопрос устойчивости бизнес-модели остаётся открытым.
DeepSeek: история и значение
DeepSeek — китайский ИИ-стартап, основанный в 2023 году хедж-фондом High-Flyer Capital Management. В январе 2025 года выпустил DeepSeek R1 — первую open-source reasoning-модель, сопоставимую с o1 от OpenAI. Заявленная стоимость обучения: $5.6 млн против сотен миллионов у западных конкурентов. Это вызвало обрушение акций NVIDIA на 17% за один день.
Модельный ряд DeepSeek
| Модель | Параметры | Тип | Лицензия | Особенность |
|---|---|---|---|---|
| DeepSeek-V3 | 671B (MoE) | Базовая LLM | MIT | Лучший open-source на дату выпуска |
| DeepSeek R1 | 671B (MoE) | Reasoning | MIT | Сопоставим с o1, 10x дешевле API |
| DeepSeek R1 Distill Qwen 32B | 32B | Reasoning | MIT | Запускается локально (24GB VRAM) |
| DeepSeek R1 Distill Llama 8B | 8B | Reasoning | MIT | Лёгкая reasoning-модель |
| DeepSeek Coder V2 | 236B (MoE) | Код | MIT | Топ по HumanEval среди open-source |
Почему DeepSeek так дёшево обучается
Три ключевых инновации позволили снизить стоимость обучения:
- Multi-head Latent Attention (MLA) — сжатие KV-кэша, снижение памяти при инференсе на 60%
- DeepSeekMoE — более тонкая архитектура MoE с большим числом мелких экспертов
- FP8 Mixed Precision Training — обучение в FP8 вместо BF16, вдвое меньше памяти
Дополнительный фактор: доступ к кластеру NVIDIA H800 (менее мощные чипы без ограничений экспорта) стимулировал разработку алгоритмических оптимизаций вместо наращивания железа.
DeepSeek API vs OpenAI API
| Параметр | DeepSeek R1 | OpenAI o3-mini |
|---|---|---|
| Входящие токены | $0.55/1M | $1.1/1M |
| Исходящие токены | $2.19/1M | $4.4/1M |
| Reasoning tokens | $0.14/1M | Включены в цену |
| AIME 2024 | 79.8% | ~80% |
Доступность из России
DeepSeek API и веб-интерфейс chat.deepseek.com доступны из России без VPN. Это делает DeepSeek одной из немногих frontier-моделей, доступных российским разработчикам напрямую. Open-source модели (R1, V3) полностью свободны и развёртываются через Ollama или vLLM.