Новости

Nvidia Blackwell: GPU для нового поколения ИИ

Nvidia Blackwell — GPU, которые определят следующее поколение ИИ. Архитектура, производительность и влияние на рынок.

Nvidia Blackwell — архитектура GPU, представленная в марте 2024 года и вышедшая в массовое производство в конце 2024 — начале 2025. Чипы B200 и GB200 (в NVL-конфигурации) предназначены для обучения и инференса ИИ-моделей. По заявлению Nvidia, Blackwell обеспечивает в 4 раза более высокую производительность обучения и в 30 раз более высокую производительность инференса по сравнению с предыдущим поколением Hopper (H100).

Архитектура

B200 — чип из 208 миллиардов транзисторов, изготовленный по 4-нм техпроцессу TSMC. Два кристалла GPU соединены через 10 ТБ/с интерконнект в единый процессор. 192 ГБ памяти HBM3e с пропускной способностью 8 ТБ/с.

GB200 NVL72 — серверная стойка из 36 GPU, соединённых NVLink 5-го поколения. Суммарная пропускная способность внутри стойки — 130 ТБ/с. Стойка обрабатывает модель уровня GPT-4 (1.8T параметров) как единый ускоритель.

Ключевая инновация — FP4 (4-битная точность). Blackwell поддерживает вычисления в 4-битной точности с 2-кратным ускорением по сравнению с FP8. Для инференса квантизированных моделей это означает удвоение пропускной способности при минимальной потере качества.

Производительность для LLM

Обучение модели уровня GPT-4 (1.8T параметров): на кластере из 8 000 H100 — 90 дней. На кластере из 2 000 B200 — те же 90 дней, но с потреблением энергии в 4 раза ниже. Или на 8 000 B200 — 22 дня.

Инференс: B200 обрабатывает в 5 раз больше запросов в секунду, чем H100 на модели Llama 3.1 70B. Для серверов инференса это означает 5-кратное снижение стоимости за запрос.

Влияние на рынок

Blackwell определяет экономику ИИ-индустрии. Дата-центры крупнейших компаний (Microsoft, Google, Meta, Amazon, Oracle) разместили заказы на сотни тысяч чипов. Спрос превышает предложение — очередь на B200 растягивается на месяцы.

Для стартапов и средних компаний прямая покупка Blackwell-серверов нереалистична (стоимость GB200 NVL72 — от $2 млн). Доступ — через облачных провайдеров: AWS, Azure, GCP предлагают инстансы на B200 с оплатой по часам.

Для пользователей языковых моделей Blackwell означает снижение цен на API. Когда провайдеры перейдут на B200 для инференса, стоимость токена упадёт в 3–5 раз. Первые признаки уже видны: цены на API GPT-4o и Claude снизились в 2025 году по сравнению с 2024.

Конкуренция

AMD MI300X — конкурент с 192 ГБ HBM3, который теряет B200 по производительности на 30–40%, но стоит дешевле. Google TPU v5p — кастомный ускоритель для внутренних нужд Google (обучение Gemini). Intel Gaudi 3 — бюджетная альтернатива, уступающая по производительности, но с более доступной ценой. Несмотря на конкуренцию, Nvidia контролирует ~80% рынка ИИ-ускорителей — экосистема CUDA создаёт замкнутость, которую сложно преодолеть.

Для разработчиков

Прямое следствие Blackwell — модели становятся дешевле в запуске. Llama 3.1 70B на одном B200 работает быстрее, чем на двух A100, и помещается в память одного чипа в FP4. Это снижает порог входа для локального запуска LLM и корпоративного деплоя.

Blackwell поддерживает все существующие фреймворки через CUDA 12.x — никаких изменений в коде не требуется. PyTorch, vLLM, TensorRT-LLM работают на B200 без модификаций.

Что такое архитектура Blackwell

Blackwell — кодовое название микроархитектуры GPU NVIDIA, сменившей Hopper (H100/H200). Чипы Blackwell разработаны специально для задач ИИ-инференса и обучения:

B100/B200 — дата-центровые GPU для обучения больших моделей
GB200 NVL72 — серверная система из 36 Grace CPU + 72 Blackwell GPU, объединённых NVLink
RTX 5090/5080 — потребительские GPU на архитектуре Blackwell

Ключевые улучшения Blackwell vs Hopper

Параметр	H100 (Hopper)	B200 (Blackwell)	Прирост
FP8 производительность	3.9 PFLOPS	18 PFLOPS	~5x
HBM память	80 ГБ HBM3	192 ГБ HBM3e	2.4x
Пропускная способность памяти	3.35 ТБ/с	8 ТБ/с	2.4x
NVLink полоса пропускания	900 ГБ/с	1.8 ТБ/с	2x
Инференс LLM (токенов/с)	Базовый	~30x быстрее	30x

Значение для рынка ИИ

Blackwell меняет экономику инференса LLM:

Снижение стоимости токена — производительность на ватт выросла в 25 раз против H100. Это напрямую снижает стоимость API для провайдеров.
Размер моделей — GB200 NVL72 позволяет запускать модели на 10+ трлн параметров как единый кластер
Конкуренция — AMD MI300X, Intel Gaudi 3, Google TPU v5 пытаются конкурировать, но NVIDIA сохраняет доминирование благодаря экосистеме CUDA

CUDA: почему NVIDIA сложно догнать

Настоящее конкурентное преимущество NVIDIA — не железо, а CUDA. За 15+ лет разработчики написали миллионы строк CUDA-оптимизированного кода. Библиотеки cuDNN, cuBLAS, NCCL — де-факто стандарт для ML. Переход на AMD ROCm или Intel OneAPI требует значительной переработки кода и не всегда даёт сопоставимую производительность.

Подробнее об использовании GPU для локальных LLM — в статье про запуск моделей через Ollama и развёртывание LLM-сервера с vLLM.

Технические характеристики GPU архитектуры Blackwell

Характеристика	H100 (Hopper)	B100 (Blackwell)	B200 (Blackwell Ultra)
Техпроцесс	TSMC 4N	TSMC 4NP	TSMC 4NP
Транзисторы	80 млрд	208 млрд	208 млрд
HBM память	80 ГБ HBM3	192 ГБ HBM3e	192 ГБ HBM3e
Пропускная способность памяти	3,35 ТБ/с	8,0 ТБ/с	8,0 ТБ/с
FP8 производительность	3,9 PFLOPS	14,0 PFLOPS	18,0 PFLOPS
NVLink пропускная способность	900 ГБ/с	1800 ГБ/с	1800 ГБ/с
TDP	700 Вт	700 Вт	1000 Вт
Стоимость (ориентировочно)	$25 000–30 000	$30 000–35 000	$40 000–50 000

Ключевые инновации архитектуры Blackwell

Second-Generation Transformer Engine: поддержка FP4 precision — первая в индустрии; снижает требования к памяти вдвое при минимальной потере точности
NVLink Switch 4: объединяет до 576 GPU в один суперчип с пропускной способностью 1,8 ПБ/с — в 5× быстрее InfiniBand
RAS Engine: аппаратный модуль мониторинга отказов прогнозирует сбои и снижает простои ЦОД
Dual-die design: два кристалла соединены через NV-HBI с 10 ТБ/с пропускной способностью, работают как единый GPU
Confidential Computing: встроенное аппаратное шифрование данных в памяти GPU без потери производительности

GB200 NVL72: суперсистема для LLM-инференса

GB200 NVL72 — стоечная система на 72 GPU B200, объединённых через NVLink:

Эффективная память: 13,8 ТБ HBM3e — позволяет запускать модели >1 трлн параметров целиком в памяти
Инференс GPT-4 масштаба: в 30× быстрее, чем эквивалентная система на H100
Стоимость стойки: ~$3 млн; Meta, Google, Microsoft заказали тысячи единиц на 2025–2026

Где Blackwell применяется в ИИ-разработке

Обучение LLM: GPT-5, Claude 4, Gemini Ultra 2 — все крупные модели 2025 года тренировались на Blackwell-кластерах
Инференс в продакшене: FP4 позволяет запускать 70B-модель на одном B200 вместо 4× H100
Мультимодальные задачи: видео, 3D, аудио — HBM3e с 8 ТБ/с закрывает узкое место bandwidth
Облачный доступ: AWS p5.48xlarge (H100) заменяется p6 (B200) в Q2 2025; GCP и Azure анонсировали аналогичные инстансы