Nvidia Blackwell: GPU для нового поколения ИИ
Nvidia Blackwell — GPU, которые определят следующее поколение ИИ. Архитектура, производительность и влияние на рынок.
Nvidia Blackwell — архитектура GPU, представленная в марте 2024 года и вышедшая в массовое производство в конце 2024 — начале 2025. Чипы B200 и GB200 (в NVL-конфигурации) предназначены для обучения и инференса ИИ-моделей. По заявлению Nvidia, Blackwell обеспечивает в 4 раза более высокую производительность обучения и в 30 раз более высокую производительность инференса по сравнению с предыдущим поколением Hopper (H100).
Архитектура
B200 — чип из 208 миллиардов транзисторов, изготовленный по 4-нм техпроцессу TSMC. Два кристалла GPU соединены через 10 ТБ/с интерконнект в единый процессор. 192 ГБ памяти HBM3e с пропускной способностью 8 ТБ/с.
GB200 NVL72 — серверная стойка из 36 GPU, соединённых NVLink 5-го поколения. Суммарная пропускная способность внутри стойки — 130 ТБ/с. Стойка обрабатывает модель уровня GPT-4 (1.8T параметров) как единый ускоритель.
Ключевая инновация — FP4 (4-битная точность). Blackwell поддерживает вычисления в 4-битной точности с 2-кратным ускорением по сравнению с FP8. Для инференса квантизированных моделей это означает удвоение пропускной способности при минимальной потере качества.
Производительность для LLM
Обучение модели уровня GPT-4 (1.8T параметров): на кластере из 8 000 H100 — 90 дней. На кластере из 2 000 B200 — те же 90 дней, но с потреблением энергии в 4 раза ниже. Или на 8 000 B200 — 22 дня.
Инференс: B200 обрабатывает в 5 раз больше запросов в секунду, чем H100 на модели Llama 3.1 70B. Для серверов инференса это означает 5-кратное снижение стоимости за запрос.
Влияние на рынок
Blackwell определяет экономику ИИ-индустрии. Дата-центры крупнейших компаний (Microsoft, Google, Meta, Amazon, Oracle) разместили заказы на сотни тысяч чипов. Спрос превышает предложение — очередь на B200 растягивается на месяцы.
Для стартапов и средних компаний прямая покупка Blackwell-серверов нереалистична (стоимость GB200 NVL72 — от $2 млн). Доступ — через облачных провайдеров: AWS, Azure, GCP предлагают инстансы на B200 с оплатой по часам.
Для пользователей языковых моделей Blackwell означает снижение цен на API. Когда провайдеры перейдут на B200 для инференса, стоимость токена упадёт в 3–5 раз. Первые признаки уже видны: цены на API GPT-4o и Claude снизились в 2025 году по сравнению с 2024.
Конкуренция
AMD MI300X — конкурент с 192 ГБ HBM3, который теряет B200 по производительности на 30–40%, но стоит дешевле. Google TPU v5p — кастомный ускоритель для внутренних нужд Google (обучение Gemini). Intel Gaudi 3 — бюджетная альтернатива, уступающая по производительности, но с более доступной ценой. Несмотря на конкуренцию, Nvidia контролирует ~80% рынка ИИ-ускорителей — экосистема CUDA создаёт замкнутость, которую сложно преодолеть.
Для разработчиков
Прямое следствие Blackwell — модели становятся дешевле в запуске. Llama 3.1 70B на одном B200 работает быстрее, чем на двух A100, и помещается в память одного чипа в FP4. Это снижает порог входа для локального запуска LLM и корпоративного деплоя.
Blackwell поддерживает все существующие фреймворки через CUDA 12.x — никаких изменений в коде не требуется. PyTorch, vLLM, TensorRT-LLM работают на B200 без модификаций.
Что такое архитектура Blackwell
Blackwell — кодовое название микроархитектуры GPU NVIDIA, сменившей Hopper (H100/H200). Чипы Blackwell разработаны специально для задач ИИ-инференса и обучения:
- B100/B200 — дата-центровые GPU для обучения больших моделей
- GB200 NVL72 — серверная система из 36 Grace CPU + 72 Blackwell GPU, объединённых NVLink
- RTX 5090/5080 — потребительские GPU на архитектуре Blackwell
Ключевые улучшения Blackwell vs Hopper
| Параметр | H100 (Hopper) | B200 (Blackwell) | Прирост |
|---|---|---|---|
| FP8 производительность | 3.9 PFLOPS | 18 PFLOPS | ~5x |
| HBM память | 80 ГБ HBM3 | 192 ГБ HBM3e | 2.4x |
| Пропускная способность памяти | 3.35 ТБ/с | 8 ТБ/с | 2.4x |
| NVLink полоса пропускания | 900 ГБ/с | 1.8 ТБ/с | 2x |
| Инференс LLM (токенов/с) | Базовый | ~30x быстрее | 30x |
Значение для рынка ИИ
Blackwell меняет экономику инференса LLM:
- Снижение стоимости токена — производительность на ватт выросла в 25 раз против H100. Это напрямую снижает стоимость API для провайдеров.
- Размер моделей — GB200 NVL72 позволяет запускать модели на 10+ трлн параметров как единый кластер
- Конкуренция — AMD MI300X, Intel Gaudi 3, Google TPU v5 пытаются конкурировать, но NVIDIA сохраняет доминирование благодаря экосистеме CUDA
CUDA: почему NVIDIA сложно догнать
Настоящее конкурентное преимущество NVIDIA — не железо, а CUDA. За 15+ лет разработчики написали миллионы строк CUDA-оптимизированного кода. Библиотеки cuDNN, cuBLAS, NCCL — де-факто стандарт для ML. Переход на AMD ROCm или Intel OneAPI требует значительной переработки кода и не всегда даёт сопоставимую производительность.
Подробнее об использовании GPU для локальных LLM — в статье про запуск моделей через Ollama и развёртывание LLM-сервера с vLLM.
Технические характеристики GPU архитектуры Blackwell
| Характеристика | H100 (Hopper) | B100 (Blackwell) | B200 (Blackwell Ultra) |
|---|---|---|---|
| Техпроцесс | TSMC 4N | TSMC 4NP | TSMC 4NP |
| Транзисторы | 80 млрд | 208 млрд | 208 млрд |
| HBM память | 80 ГБ HBM3 | 192 ГБ HBM3e | 192 ГБ HBM3e |
| Пропускная способность памяти | 3,35 ТБ/с | 8,0 ТБ/с | 8,0 ТБ/с |
| FP8 производительность | 3,9 PFLOPS | 14,0 PFLOPS | 18,0 PFLOPS |
| NVLink пропускная способность | 900 ГБ/с | 1800 ГБ/с | 1800 ГБ/с |
| TDP | 700 Вт | 700 Вт | 1000 Вт |
| Стоимость (ориентировочно) | $25 000–30 000 | $30 000–35 000 | $40 000–50 000 |
Ключевые инновации архитектуры Blackwell
- Second-Generation Transformer Engine: поддержка FP4 precision — первая в индустрии; снижает требования к памяти вдвое при минимальной потере точности
- NVLink Switch 4: объединяет до 576 GPU в один суперчип с пропускной способностью 1,8 ПБ/с — в 5× быстрее InfiniBand
- RAS Engine: аппаратный модуль мониторинга отказов прогнозирует сбои и снижает простои ЦОД
- Dual-die design: два кристалла соединены через NV-HBI с 10 ТБ/с пропускной способностью, работают как единый GPU
- Confidential Computing: встроенное аппаратное шифрование данных в памяти GPU без потери производительности
GB200 NVL72: суперсистема для LLM-инференса
GB200 NVL72 — стоечная система на 72 GPU B200, объединённых через NVLink:
- Эффективная память: 13,8 ТБ HBM3e — позволяет запускать модели >1 трлн параметров целиком в памяти
- Инференс GPT-4 масштаба: в 30× быстрее, чем эквивалентная система на H100
- Стоимость стойки: ~$3 млн; Meta, Google, Microsoft заказали тысячи единиц на 2025–2026
Где Blackwell применяется в ИИ-разработке
- Обучение LLM: GPT-5, Claude 4, Gemini Ultra 2 — все крупные модели 2025 года тренировались на Blackwell-кластерах
- Инференс в продакшене: FP4 позволяет запускать 70B-модель на одном B200 вместо 4× H100
- Мультимодальные задачи: видео, 3D, аудио — HBM3e с 8 ТБ/с закрывает узкое место bandwidth
- Облачный доступ: AWS p5.48xlarge (H100) заменяется p6 (B200) в Q2 2025; GCP и Azure анонсировали аналогичные инстансы