Компании

DeepSeek: как китайский стартап бросил вызов OpenAI

История DeepSeek: от хедж-фонда High-Flyer к лидерству в open-source ИИ. Архитектурные прорывы, DeepSeek-V2 и влияние на глобальный рынок LLM.

В декабре 2023 года мало кто за пределами Китая знал о DeepSeek. К середине 2024-го компания стала одним из самых обсуждаемых игроков в мире ИИ. DeepSeek выпускает модели, которые конкурируют с GPT-4 и Claude по качеству, но при этом полностью открыты — веса, код, описание архитектуры. И делает это с бюджетом, который составляет малую долю от расходов американских конкурентов.

Откуда взялся DeepSeek

DeepSeek — подразделение High-Flyer, китайского квантитативного хедж-фонда из Ханчжоу с активами под управлением ~$8 миллиардов. Основатель High-Flyer Лян Вэньфэн (Liang Wenfeng) — выпускник Чжэцзянского университета, один из пионеров количественного трейдинга в Китае.

High-Flyer использовал ИИ для торговых стратегий задолго до ChatGPT. К 2023 году фонд накопил серьёзную GPU-инфраструктуру и экспертизу в обучении нейросетей. Лян решил направить эти ресурсы на разработку foundation models — так появился DeepSeek.

Важный контекст: в октябре 2022 года США ввели экспортные ограничения на продвинутые чипы NVIDIA для Китая. DeepSeek вынужден работать с менее мощным железом (NVIDIA A100 вместо H100), что мотивировало поиск архитектурных оптимизаций. Ограничения стали катализатором инноваций.

Ключевые модели

DeepSeek-V2 (май 2024)

Модель, которая привлекла внимание индустрии. 236 миллиардов параметров, но архитектура MoE (Mixture of Experts) означает, что при каждом запросе активируется только 21 миллиард. Результат: качество на уровне Llama 3 70B при стоимости инференса в 10–20 раз ниже.

Архитектурные прорывы DeepSeek-V2:

Multi-head Latent Attention (MLA) — сжимает KV cache в 5–13 раз по сравнению со стандартным Multi-Head Attention. Это критично для серверного инференса, где KV cache — основное узкое место по памяти.
DeepSeekMoE — более гранулированная архитектура экспертов с «shared experts» (общие для всех запросов) и «routed experts» (специализированные). 160 экспертов, из которых активируются 6 при каждом токене.

DeepSeek-V2 установил новый стандарт эффективности. API-стоимость: $0.14 за миллион входных токенов — в 100 раз дешевле GPT-4 Turbo на тот момент. При сопоставимом качестве.

DeepSeek-Coder V2 (июнь 2024)

Специализированная версия для программирования. 236B параметров (21B активных). По бенчмаркам кодинга (HumanEval, MBPP, LiveCodeBench) — на уровне GPT-4o и Claude 3.5 Sonnet. Поддерживает 338 языков программирования и контекстное окно 128K токенов.

DeepSeek-Coder стал одной из самых популярных open-source моделей для кодинга, конкурируя с CodeLlama и StarCoder.

DeepSeek-V3 (декабрь 2024)

Флагманская модель: 671B параметров (37B активных). Обучена на 14.8 триллионах токенов. По бенчмаркам — на уровне Claude 3.5 Sonnet и GPT-4o. Главная сенсация: стоимость обучения составила ~$5.5 миллионов — на два порядка меньше, чем оценки затрат на обучение GPT-4 ($100+ миллионов).

DeepSeek заявила, что использовала 2048 GPU NVIDIA H800 (экспортная версия H100 с пониженной пропускной способностью межсоединений). Для сравнения: Meta для обучения Llama 3 405B использовала 16 384 GPU H100.

Почему DeepSeek важен

Эффективность вместо грубой силы. DeepSeek доказал, что архитектурные инновации могут компенсировать недостаток вычислительных ресурсов. MLA, DeepSeekMoE, оптимизации обучения — это не косметические улучшения, а фундаментальные инженерные решения.

Open source без компромиссов. DeepSeek публикует не только веса моделей, но и подробные технические отчёты с описанием архитектуры, процесса обучения и экспериментов. Это позволяет исследователям воспроизводить и развивать результаты.

Вызов экономике ИИ. Если качественную модель можно обучить за $5 миллионов, а не за $100 миллионов, это меняет конкурентный ландшафт. Бариера входа снижаются. Аргумент «только крупнейшие компании могут создавать передовые модели» ослабевает.

Геополитический контекст. DeepSeek показал, что экспортные ограничения США не остановили развитие ИИ в Китае, а скорее перенаправили его в сторону эффективности. Этот результат повлиял на дискуссию о санкционной политике в Вашингтоне.

Влияние на рынок

Выпуск DeepSeek-V3 в декабре 2024 года вызвал реакцию, которую редко видно в технологической индустрии. Акции NVIDIA и других компаний сектора ИИ заметно просели — инвесторы пересмотрели предположение о том, что «больше GPU = лучше модели» и что расходы на обучение будут только расти.

Для разработчиков DeepSeek открыл возможности: модели, сопоставимые с лучшими закрытыми, доступны для скачивания, модификации и коммерческого использования. API DeepSeek — один из самых дешёвых на рынке, что делает его привлекательным для стартапов и проектов с ограниченным бюджетом.

Ограничения и вопросы

DeepSeek — китайская компания, и модели соответствуют требованиям китайского регулирования. Темы, связанные с политической цензурой (Тяньаньмэнь, Тайвань, Тибет), обрабатываются специфически. Для международных пользователей это потенциальная проблема, если модель используется в контексте, требующем неограниченного обсуждения.

Кроме того, долгосрочная стратегия DeepSeek неясна. Компания финансируется хедж-фондом и не привлекала внешних инвестиций. Это обеспечивает независимость, но вопрос устойчивости бизнес-модели остаётся открытым.

DeepSeek: история и значение

DeepSeek — китайский ИИ-стартап, основанный в 2023 году хедж-фондом High-Flyer Capital Management. В январе 2025 года выпустил DeepSeek R1 — первую open-source reasoning-модель, сопоставимую с o1 от OpenAI. Заявленная стоимость обучения: $5.6 млн против сотен миллионов у западных конкурентов. Это вызвало обрушение акций NVIDIA на 17% за один день.

Модельный ряд DeepSeek

Модель	Параметры	Тип	Лицензия	Особенность
DeepSeek-V3	671B (MoE)	Базовая LLM	MIT	Лучший open-source на дату выпуска
DeepSeek R1	671B (MoE)	Reasoning	MIT	Сопоставим с o1, 10x дешевле API
DeepSeek R1 Distill Qwen 32B	32B	Reasoning	MIT	Запускается локально (24GB VRAM)
DeepSeek R1 Distill Llama 8B	8B	Reasoning	MIT	Лёгкая reasoning-модель
DeepSeek Coder V2	236B (MoE)	Код	MIT	Топ по HumanEval среди open-source

Почему DeepSeek так дёшево обучается

Три ключевых инновации позволили снизить стоимость обучения:

Multi-head Latent Attention (MLA) — сжатие KV-кэша, снижение памяти при инференсе на 60%
DeepSeekMoE — более тонкая архитектура MoE с большим числом мелких экспертов
FP8 Mixed Precision Training — обучение в FP8 вместо BF16, вдвое меньше памяти

Дополнительный фактор: доступ к кластеру NVIDIA H800 (менее мощные чипы без ограничений экспорта) стимулировал разработку алгоритмических оптимизаций вместо наращивания железа.

DeepSeek API vs OpenAI API

Параметр	DeepSeek R1	OpenAI o3-mini
Входящие токены	$0.55/1M	$1.1/1M
Исходящие токены	$2.19/1M	$4.4/1M
Reasoning tokens	$0.14/1M	Включены в цену
AIME 2024	79.8%	~80%

Доступность из России

DeepSeek API и веб-интерфейс chat.deepseek.com доступны из России без VPN. Это делает DeepSeek одной из немногих frontier-моделей, доступных российским разработчикам напрямую. Open-source модели (R1, V3) полностью свободны и развёртываются через Ollama или vLLM.