Nvidia Blackwell: GPU для нового поколения ИИ

Nvidia Blackwell — GPU, которые определят следующее поколение ИИ. Архитектура, производительность и влияние на рынок.

Nvidia Blackwell: GPU для нового поколения ИИ

Nvidia Blackwell — архитектура GPU, представленная в марте 2024 года и вышедшая в массовое производство в конце 2024 — начале 2025. Чипы B200 и GB200 (в NVL-конфигурации) предназначены для обучения и инференса ИИ-моделей. По заявлению Nvidia, Blackwell обеспечивает в 4 раза более высокую производительность обучения и в 30 раз более высокую производительность инференса по сравнению с предыдущим поколением Hopper (H100).

Архитектура

B200 — чип из 208 миллиардов транзисторов, изготовленный по 4-нм техпроцессу TSMC. Два кристалла GPU соединены через 10 ТБ/с интерконнект в единый процессор. 192 ГБ памяти HBM3e с пропускной способностью 8 ТБ/с.

GB200 NVL72 — серверная стойка из 36 GPU, соединённых NVLink 5-го поколения. Суммарная пропускная способность внутри стойки — 130 ТБ/с. Стойка обрабатывает модель уровня GPT-4 (1.8T параметров) как единый ускоритель.

Ключевая инновация — FP4 (4-битная точность). Blackwell поддерживает вычисления в 4-битной точности с 2-кратным ускорением по сравнению с FP8. Для инференса квантизированных моделей это означает удвоение пропускной способности при минимальной потере качества.

Производительность для LLM

Обучение модели уровня GPT-4 (1.8T параметров): на кластере из 8 000 H100 — 90 дней. На кластере из 2 000 B200 — те же 90 дней, но с потреблением энергии в 4 раза ниже. Или на 8 000 B200 — 22 дня.

Инференс: B200 обрабатывает в 5 раз больше запросов в секунду, чем H100 на модели Llama 3.1 70B. Для серверов инференса это означает 5-кратное снижение стоимости за запрос.

Влияние на рынок

Blackwell определяет экономику ИИ-индустрии. Дата-центры крупнейших компаний (Microsoft, Google, Meta, Amazon, Oracle) разместили заказы на сотни тысяч чипов. Спрос превышает предложение — очередь на B200 растягивается на месяцы.

Для стартапов и средних компаний прямая покупка Blackwell-серверов нереалистична (стоимость GB200 NVL72 — от $2 млн). Доступ — через облачных провайдеров: AWS, Azure, GCP предлагают инстансы на B200 с оплатой по часам.

Для пользователей языковых моделей Blackwell означает снижение цен на API. Когда провайдеры перейдут на B200 для инференса, стоимость токена упадёт в 3–5 раз. Первые признаки уже видны: цены на API GPT-4o и Claude снизились в 2025 году по сравнению с 2024.

Конкуренция

AMD MI300X — конкурент с 192 ГБ HBM3, который теряет B200 по производительности на 30–40%, но стоит дешевле. Google TPU v5p — кастомный ускоритель для внутренних нужд Google (обучение Gemini). Intel Gaudi 3 — бюджетная альтернатива, уступающая по производительности, но с более доступной ценой. Несмотря на конкуренцию, Nvidia контролирует ~80% рынка ИИ-ускорителей — экосистема CUDA создаёт замкнутость, которую сложно преодолеть.

Для разработчиков

Прямое следствие Blackwell — модели становятся дешевле в запуске. Llama 3.1 70B на одном B200 работает быстрее, чем на двух A100, и помещается в память одного чипа в FP4. Это снижает порог входа для локального запуска LLM и корпоративного деплоя.

Blackwell поддерживает все существующие фреймворки через CUDA 12.x — никаких изменений в коде не требуется. PyTorch, vLLM, TensorRT-LLM работают на B200 без модификаций.

Что такое архитектура Blackwell

Blackwell — кодовое название микроархитектуры GPU NVIDIA, сменившей Hopper (H100/H200). Чипы Blackwell разработаны специально для задач ИИ-инференса и обучения:

  • B100/B200 — дата-центровые GPU для обучения больших моделей
  • GB200 NVL72 — серверная система из 36 Grace CPU + 72 Blackwell GPU, объединённых NVLink
  • RTX 5090/5080 — потребительские GPU на архитектуре Blackwell

Ключевые улучшения Blackwell vs Hopper

ПараметрH100 (Hopper)B200 (Blackwell)Прирост
FP8 производительность3.9 PFLOPS18 PFLOPS~5x
HBM память80 ГБ HBM3192 ГБ HBM3e2.4x
Пропускная способность памяти3.35 ТБ/с8 ТБ/с2.4x
NVLink полоса пропускания900 ГБ/с1.8 ТБ/с2x
Инференс LLM (токенов/с)Базовый~30x быстрее30x

Значение для рынка ИИ

Blackwell меняет экономику инференса LLM:

  • Снижение стоимости токена — производительность на ватт выросла в 25 раз против H100. Это напрямую снижает стоимость API для провайдеров.
  • Размер моделей — GB200 NVL72 позволяет запускать модели на 10+ трлн параметров как единый кластер
  • Конкуренция — AMD MI300X, Intel Gaudi 3, Google TPU v5 пытаются конкурировать, но NVIDIA сохраняет доминирование благодаря экосистеме CUDA

CUDA: почему NVIDIA сложно догнать

Настоящее конкурентное преимущество NVIDIA — не железо, а CUDA. За 15+ лет разработчики написали миллионы строк CUDA-оптимизированного кода. Библиотеки cuDNN, cuBLAS, NCCL — де-факто стандарт для ML. Переход на AMD ROCm или Intel OneAPI требует значительной переработки кода и не всегда даёт сопоставимую производительность.

Подробнее об использовании GPU для локальных LLM — в статье про запуск моделей через Ollama и развёртывание LLM-сервера с vLLM.

Технические характеристики GPU архитектуры Blackwell

ХарактеристикаH100 (Hopper)B100 (Blackwell)B200 (Blackwell Ultra)
ТехпроцессTSMC 4NTSMC 4NPTSMC 4NP
Транзисторы80 млрд208 млрд208 млрд
HBM память80 ГБ HBM3192 ГБ HBM3e192 ГБ HBM3e
Пропускная способность памяти3,35 ТБ/с8,0 ТБ/с8,0 ТБ/с
FP8 производительность3,9 PFLOPS14,0 PFLOPS18,0 PFLOPS
NVLink пропускная способность900 ГБ/с1800 ГБ/с1800 ГБ/с
TDP700 Вт700 Вт1000 Вт
Стоимость (ориентировочно)$25 000–30 000$30 000–35 000$40 000–50 000

Ключевые инновации архитектуры Blackwell

  • Second-Generation Transformer Engine: поддержка FP4 precision — первая в индустрии; снижает требования к памяти вдвое при минимальной потере точности
  • NVLink Switch 4: объединяет до 576 GPU в один суперчип с пропускной способностью 1,8 ПБ/с — в 5× быстрее InfiniBand
  • RAS Engine: аппаратный модуль мониторинга отказов прогнозирует сбои и снижает простои ЦОД
  • Dual-die design: два кристалла соединены через NV-HBI с 10 ТБ/с пропускной способностью, работают как единый GPU
  • Confidential Computing: встроенное аппаратное шифрование данных в памяти GPU без потери производительности

GB200 NVL72: суперсистема для LLM-инференса

GB200 NVL72 — стоечная система на 72 GPU B200, объединённых через NVLink:

  • Эффективная память: 13,8 ТБ HBM3e — позволяет запускать модели >1 трлн параметров целиком в памяти
  • Инференс GPT-4 масштаба: в 30× быстрее, чем эквивалентная система на H100
  • Стоимость стойки: ~$3 млн; Meta, Google, Microsoft заказали тысячи единиц на 2025–2026

Где Blackwell применяется в ИИ-разработке

  • Обучение LLM: GPT-5, Claude 4, Gemini Ultra 2 — все крупные модели 2025 года тренировались на Blackwell-кластерах
  • Инференс в продакшене: FP4 позволяет запускать 70B-модель на одном B200 вместо 4× H100
  • Мультимодальные задачи: видео, 3D, аудио — HBM3e с 8 ТБ/с закрывает узкое место bandwidth
  • Облачный доступ: AWS p5.48xlarge (H100) заменяется p6 (B200) в Q2 2025; GCP и Azure анонсировали аналогичные инстансы