Llama 4: Meta открывает модель нового поколения
Meta выпустила Llama 4 — разбираем архитектуру, бенчмарки и значение для open-source ИИ.
Meta выпустила Llama 4 — четвёртое поколение открытой языковой модели, которая задаёт стандарт для open-source ИИ. Семейство включает два варианта: Scout (17 миллиардов активных параметров, 16 экспертов) и Maverick (17B активных, 128 экспертов). Оба используют архитектуру Mixture of Experts (MoE), что делает их значительно быстрее при инференсе, чем «плотные» модели сопоставимого качества.
Архитектура Mixture of Experts
MoE — подход, при котором модель состоит из множества «экспертных» подсетей. Для каждого токена активируются только 1–2 эксперта из всех доступных. Scout с 16 экспертами активирует 1 из 16 — фактически обрабатывая запрос как модель в 17B параметров, имея при этом знания модели в 109B. Maverick с 128 экспертами масштабирует этот подход дальше.
Практический результат: Llama 4 Scout работает на одной GPU A100 80GB, при этом по качеству конкурирует с Gemini 2.0 Flash и GPT-4o mini.
Контекст и мультимодальность
Llama 4 Scout поддерживает контекстное окно в 10 миллионов токенов — рекордное среди открытых моделей. Это позволяет загрузить целую кодовую базу или книгу для анализа. Мультимодальность: модели понимают текст и изображения (vision encoder на базе MetaCLIP), генерация изображений не поддерживается.
Бенчмарки
Scout превосходит Gemma 2 26B, Mistral Small и предыдущий Llama 3.1 8B на большинстве тестов. Maverick конкурирует с GPT-4o и Claude 3.5 Sonnet на задачах программирования и рассуждения, уступая на мультимодальных тестах.
На русском языке Llama 4 показывает улучшение по сравнению с Llama 3 — Meta расширила обучающий датасет мультиязычными данными. Качество русского текста приближается к GPT-4o mini, но уступает Claude.
Лицензия и доступность
Llama 4 распространяется под лицензией Llama Community License — бесплатно для коммерческого использования при менее чем 700 миллионах ежемесячных пользователей. Модели доступны на Hugging Face, через Ollama, vLLM и все основные облачные платформы.
Что это значит для рынка
Llama 4 продолжает стратегию Meta по демократизации ИИ. Открытая модель уровня GPT-4o mini снижает барьер входа для разработчиков и компаний, которые не хотят зависеть от API закрытых провайдеров. MoE-архитектура делает развёртывание экономичнее — меньше GPU для того же качества. Для экосистемы LoRA-адаптеров и fine-tuning это означает новую базовую модель с лучшим балансом качества и стоимости.
Подробнее: Как настроить локальную языковую модель
Что нового в Llama 4
Llama 4 — четвёртое поколение открытых языковых моделей Meta. Ключевые улучшения по сравнению с Llama 3:
- Мультимодальность — нативная поддержка изображений, видео и аудио
- Mixture of Experts (MoE) — архитектура с экспертами повышает эффективность при сопоставимом качестве
- Увеличенный контекст — до 10M токенов в Scout-версии
- Лучший код и рассуждения — значительный прогресс на бенчмарках MATH и HumanEval
Модели в линейке Llama 4
| Модель | Параметры | Тип | Применение |
|---|---|---|---|
| Llama 4 Scout | 17B активных / 109B всего | MoE, мультимодальная | Локальный запуск, длинный контекст |
| Llama 4 Maverick | 17B активных / 400B всего | MoE, мультимодальная | Баланс качества и скорости |
| Llama 4 Behemoth | ~2 трлн параметров | Frontier | Исследования, API (закрытая) |
Лицензия и доступность
Llama 4 Scout и Maverick доступны под лицензией Llama 4 Community License:
- Бесплатное использование для исследований и коммерческих продуктов
- Ограничение: нельзя использовать для обучения других LLM
- Доступны на Hugging Face и через Meta API
Как запустить Llama 4 локально
Через Ollama (при наличии достаточного GPU):
# Scout-версия (требует ~40GB VRAM для fp16)
ollama pull llama4:scout
ollama run llama4:scout "Объясни принципы MoE архитектуры"Для Scout в 4-bit квантизации достаточно ~24GB VRAM (RTX 3090/4090).
Llama 4 vs конкуренты
| Модель | Открытая | Мультимодальная | Размер контекста |
|---|---|---|---|
| Llama 4 Scout | ✅ | ✅ | 10M токенов |
| Gemma 3 27B | ✅ | ✅ | 128K токенов |
| Qwen2.5-VL 72B | ✅ | ✅ | 128K токенов |
| GPT-4o | ❌ | ✅ | 128K токенов |
Llama 4 — самое серьёзное обновление Meta в гонке открытых моделей. Подробнее о других open-source моделях — в нашем обзоре open-source LLM.
Llama 4: архитектура и ключевые характеристики
Llama 4 — семейство open-source языковых моделей от Meta, выпущенное в 2025 году. Главное нововведение — переход на архитектуру Mixture of Experts (MoE) для старших моделей, что позволяет резко увеличить общее число параметров без пропорционального роста вычислительных затрат на инференс.
| Модель | Параметры (всего / активных) | Контекст | Мультимодальность | Лицензия |
|---|---|---|---|---|
| Llama 4 Scout | 109B / 17B активных (16 экспертов) | 10M токенов | Текст + изображения | Llama 4 Community |
| Llama 4 Maverick | 400B / 17B активных (128 экспертов) | 1M токенов | Текст + изображения | Llama 4 Community |
| Llama 4 Behemoth | 2T / ~200B активных | TBD | Текст + изображения | TBD (в разработке) |
Mixture of Experts: почему это важно
В классических dense-моделях (Llama 3, GPT-4) все параметры задействуются при каждом токене. В MoE-архитектуре модель содержит множество «экспертных» подсетей, из которых для каждого токена активируется только несколько. Результат: Llama 4 Maverick с 400B параметрами использует только 17B при инференсе — это сопоставимо с Llama 3 70B по вычислительным затратам, но превосходит её по качеству.
Производительность: бенчмарки
| Тест | Llama 4 Maverick | GPT-4o | Claude 3.5 Sonnet | Gemini 2.0 Flash |
|---|---|---|---|---|
| MMLU | 85.5% | 87.2% | 88.7% | 83.2% |
| HumanEval (код) | 77.1% | 90.2% | 93.7% | 85.0% |
| MATH | 61.2% | 76.6% | 78.3% | 71.0% |
| DocVQA (мультимодальность) | 94.4% | 92.8% | 89.9% | 92.1% |
Системные требования для локального запуска
Llama 4 Scout (109B, MoE): требует ~40GB VRAM в квантизации INT4. Запускается на двух NVIDIA RTX 4090 или одной A100 80GB. Через Ollama доступна квантизация Q4_K_M.
Llama 4 Maverick (400B, MoE): для локального инференса нужен кластер GPU с минимум 8×A100 80GB. Большинству пользователей доступен только через API (Groq, Together AI, Fireworks).
Когда выбирать Llama 4
Llama 4 — лучший выбор когда: данные нельзя передавать в сторонние облака (корпоративная тайна, персональные данные), нужна кастомизация модели под конкретную задачу (fine-tuning), требуется предсказуемая стоимость без зависимости от API.
Для большинства продакшен-задач Llama 4 Scout через API-провайдеров (Groq, Together AI) конкурентоспособна с GPT-4o mini по соотношению цены и качества.
Сравнение моделей семейства Llama 4
| Модель | Параметры | Контекст | Специализация | Лицензия |
|---|---|---|---|---|
| Llama 4 Scout | 17B активных / 109B total (MoE) | 10M токенов | Длинный контекст, документы | Llama 4 Community |
| Llama 4 Maverick | 17B активных / 400B total (MoE) | 1M токенов | Мультимодальность, общие задачи | Llama 4 Community |
| Llama 4 Behemoth (preview) | 288B активных / 2T total | Не раскрыт | Frontier-исследования | Закрытая |
Ключевые технические особенности
- MoE архитектура: Mixture of Experts — активируется только часть параметров на каждый токен, что снижает стоимость инференса при сохранении качества большой модели
- Нативная мультимодальность: Maverick обрабатывает текст и изображения в одной архитектуре — без отдельного image encoder
- 10M контекст Scout: Meta использовала iRoPE (interleaved RoPE) для масштабирования позиционного кодирования до 10M токенов без потери производительности
- Early Fusion: изображения и текст объединяются на уровне токенов, что улучшает понимание взаимосвязей визуального и текстового контента
Бенчмарки Llama 4 Maverick
- MMLU: 85.5% — сопоставимо с GPT-4o (87.2%) при полностью открытых весах
- MATH: 73.8% — выше Llama 3.3 70B (77.0% при значительно большем числе параметров)
- HumanEval (код): 77.6% — конкурентоспособно с проприетарными моделями среднего класса
- Мультимодальность (MMMU): 73.4% — на уровне GPT-4V
Как запустить Llama 4 Scout локально
# Через Ollama (упрощённый вариант)
ollama pull llama4:scout
ollama run llama4:scout
# Через Hugging Face Transformers
from transformers import pipeline
pipe = pipeline(
'text-generation',
model='meta-llama/Llama-4-Scout-17B-16E-Instruct',
device_map='auto'
)
result = pipe('Объясни принцип работы MoE архитектуры')
print(result[0]['generated_text'])Лицензия Llama 4: что разрешено
- Коммерческое использование разрешено (включая API-продукты)
- Ограничение: компании с MAU >700 млн требуют отдельной лицензии от Meta
- Fine-tuning разрешён; производные модели должны сохранять маркировку «Llama»
- Список запрещённых применений: оружие, дезинформация, нарушение конфиденциальности