LLM

Llama 4: Meta открывает модель нового поколения

Meta выпустила Llama 4 — разбираем архитектуру, бенчмарки и значение для open-source ИИ.

Meta выпустила Llama 4 — четвёртое поколение открытой языковой модели, которая задаёт стандарт для open-source ИИ. Семейство включает два варианта: Scout (17 миллиардов активных параметров, 16 экспертов) и Maverick (17B активных, 128 экспертов). Оба используют архитектуру Mixture of Experts (MoE), что делает их значительно быстрее при инференсе, чем «плотные» модели сопоставимого качества.

Архитектура Mixture of Experts

MoE — подход, при котором модель состоит из множества «экспертных» подсетей. Для каждого токена активируются только 1–2 эксперта из всех доступных. Scout с 16 экспертами активирует 1 из 16 — фактически обрабатывая запрос как модель в 17B параметров, имея при этом знания модели в 109B. Maverick с 128 экспертами масштабирует этот подход дальше.

Практический результат: Llama 4 Scout работает на одной GPU A100 80GB, при этом по качеству конкурирует с Gemini 2.0 Flash и GPT-4o mini.

Контекст и мультимодальность

Llama 4 Scout поддерживает контекстное окно в 10 миллионов токенов — рекордное среди открытых моделей. Это позволяет загрузить целую кодовую базу или книгу для анализа. Мультимодальность: модели понимают текст и изображения (vision encoder на базе MetaCLIP), генерация изображений не поддерживается.

Бенчмарки

Scout превосходит Gemma 2 26B, Mistral Small и предыдущий Llama 3.1 8B на большинстве тестов. Maverick конкурирует с GPT-4o и Claude 3.5 Sonnet на задачах программирования и рассуждения, уступая на мультимодальных тестах.

На русском языке Llama 4 показывает улучшение по сравнению с Llama 3 — Meta расширила обучающий датасет мультиязычными данными. Качество русского текста приближается к GPT-4o mini, но уступает Claude.

Лицензия и доступность

Llama 4 распространяется под лицензией Llama Community License — бесплатно для коммерческого использования при менее чем 700 миллионах ежемесячных пользователей. Модели доступны на Hugging Face, через Ollama, vLLM и все основные облачные платформы.

Что это значит для рынка

Llama 4 продолжает стратегию Meta по демократизации ИИ. Открытая модель уровня GPT-4o mini снижает барьер входа для разработчиков и компаний, которые не хотят зависеть от API закрытых провайдеров. MoE-архитектура делает развёртывание экономичнее — меньше GPU для того же качества. Для экосистемы LoRA-адаптеров и fine-tuning это означает новую базовую модель с лучшим балансом качества и стоимости.

Подробнее: Как настроить локальную языковую модель

Что нового в Llama 4

Llama 4 — четвёртое поколение открытых языковых моделей Meta. Ключевые улучшения по сравнению с Llama 3:

Мультимодальность — нативная поддержка изображений, видео и аудио
Mixture of Experts (MoE) — архитектура с экспертами повышает эффективность при сопоставимом качестве
Увеличенный контекст — до 10M токенов в Scout-версии
Лучший код и рассуждения — значительный прогресс на бенчмарках MATH и HumanEval

Модели в линейке Llama 4

Модель	Параметры	Тип	Применение
Llama 4 Scout	17B активных / 109B всего	MoE, мультимодальная	Локальный запуск, длинный контекст
Llama 4 Maverick	17B активных / 400B всего	MoE, мультимодальная	Баланс качества и скорости
Llama 4 Behemoth	~2 трлн параметров	Frontier	Исследования, API (закрытая)

Лицензия и доступность

Llama 4 Scout и Maverick доступны под лицензией Llama 4 Community License:

Бесплатное использование для исследований и коммерческих продуктов
Ограничение: нельзя использовать для обучения других LLM
Доступны на Hugging Face и через Meta API

Как запустить Llama 4 локально

Через Ollama (при наличии достаточного GPU):

# Scout-версия (требует ~40GB VRAM для fp16)
ollama pull llama4:scout

ollama run llama4:scout "Объясни принципы MoE архитектуры"

Для Scout в 4-bit квантизации достаточно ~24GB VRAM (RTX 3090/4090).

Llama 4 vs конкуренты

Модель	Открытая	Мультимодальная	Размер контекста
Llama 4 Scout	✅	✅	10M токенов
Gemma 3 27B	✅	✅	128K токенов
Qwen2.5-VL 72B	✅	✅	128K токенов
GPT-4o	❌	✅	128K токенов

Llama 4 — самое серьёзное обновление Meta в гонке открытых моделей. Подробнее о других open-source моделях — в нашем обзоре open-source LLM.

Llama 4: архитектура и ключевые характеристики

Llama 4 — семейство open-source языковых моделей от Meta, выпущенное в 2025 году. Главное нововведение — переход на архитектуру Mixture of Experts (MoE) для старших моделей, что позволяет резко увеличить общее число параметров без пропорционального роста вычислительных затрат на инференс.

Модель	Параметры (всего / активных)	Контекст	Мультимодальность	Лицензия
Llama 4 Scout	109B / 17B активных (16 экспертов)	10M токенов	Текст + изображения	Llama 4 Community
Llama 4 Maverick	400B / 17B активных (128 экспертов)	1M токенов	Текст + изображения	Llama 4 Community
Llama 4 Behemoth	2T / ~200B активных	TBD	Текст + изображения	TBD (в разработке)

Mixture of Experts: почему это важно

В классических dense-моделях (Llama 3, GPT-4) все параметры задействуются при каждом токене. В MoE-архитектуре модель содержит множество «экспертных» подсетей, из которых для каждого токена активируется только несколько. Результат: Llama 4 Maverick с 400B параметрами использует только 17B при инференсе — это сопоставимо с Llama 3 70B по вычислительным затратам, но превосходит её по качеству.

Производительность: бенчмарки

Тест	Llama 4 Maverick	GPT-4o	Claude 3.5 Sonnet	Gemini 2.0 Flash
MMLU	85.5%	87.2%	88.7%	83.2%
HumanEval (код)	77.1%	90.2%	93.7%	85.0%
MATH	61.2%	76.6%	78.3%	71.0%
DocVQA (мультимодальность)	94.4%	92.8%	89.9%	92.1%

Системные требования для локального запуска

Llama 4 Scout (109B, MoE): требует ~40GB VRAM в квантизации INT4. Запускается на двух NVIDIA RTX 4090 или одной A100 80GB. Через Ollama доступна квантизация Q4_K_M.

Llama 4 Maverick (400B, MoE): для локального инференса нужен кластер GPU с минимум 8×A100 80GB. Большинству пользователей доступен только через API (Groq, Together AI, Fireworks).

Когда выбирать Llama 4

Llama 4 — лучший выбор когда: данные нельзя передавать в сторонние облака (корпоративная тайна, персональные данные), нужна кастомизация модели под конкретную задачу (fine-tuning), требуется предсказуемая стоимость без зависимости от API.

Для большинства продакшен-задач Llama 4 Scout через API-провайдеров (Groq, Together AI) конкурентоспособна с GPT-4o mini по соотношению цены и качества.

Сравнение моделей семейства Llama 4

Модель	Параметры	Контекст	Специализация	Лицензия
Llama 4 Scout	17B активных / 109B total (MoE)	10M токенов	Длинный контекст, документы	Llama 4 Community
Llama 4 Maverick	17B активных / 400B total (MoE)	1M токенов	Мультимодальность, общие задачи	Llama 4 Community
Llama 4 Behemoth (preview)	288B активных / 2T total	Не раскрыт	Frontier-исследования	Закрытая

Ключевые технические особенности

MoE архитектура: Mixture of Experts — активируется только часть параметров на каждый токен, что снижает стоимость инференса при сохранении качества большой модели
Нативная мультимодальность: Maverick обрабатывает текст и изображения в одной архитектуре — без отдельного image encoder
10M контекст Scout: Meta использовала iRoPE (interleaved RoPE) для масштабирования позиционного кодирования до 10M токенов без потери производительности
Early Fusion: изображения и текст объединяются на уровне токенов, что улучшает понимание взаимосвязей визуального и текстового контента

Бенчмарки Llama 4 Maverick

MMLU: 85.5% — сопоставимо с GPT-4o (87.2%) при полностью открытых весах
MATH: 73.8% — выше Llama 3.3 70B (77.0% при значительно большем числе параметров)
HumanEval (код): 77.6% — конкурентоспособно с проприетарными моделями среднего класса
Мультимодальность (MMMU): 73.4% — на уровне GPT-4V

Как запустить Llama 4 Scout локально

# Через Ollama (упрощённый вариант)
ollama pull llama4:scout
ollama run llama4:scout

# Через Hugging Face Transformers
from transformers import pipeline
pipe = pipeline(
    'text-generation',
    model='meta-llama/Llama-4-Scout-17B-16E-Instruct',
    device_map='auto'
)
result = pipe('Объясни принцип работы MoE архитектуры')
print(result[0]['generated_text'])

Лицензия Llama 4: что разрешено

Коммерческое использование разрешено (включая API-продукты)
Ограничение: компании с MAU >700 млн требуют отдельной лицензии от Meta
Fine-tuning разрешён; производные модели должны сохранять маркировку «Llama»
Список запрещённых применений: оружие, дезинформация, нарушение конфиденциальности

Llama 4: Meta открывает модель нового поколения

Архитектура Mixture of Experts

Контекст и мультимодальность

Бенчмарки

Лицензия и доступность

Что это значит для рынка

Что нового в Llama 4

Модели в линейке Llama 4

Лицензия и доступность

Как запустить Llama 4 локально

Llama 4 vs конкуренты

Llama 4: архитектура и ключевые характеристики

Mixture of Experts: почему это важно

Производительность: бенчмарки

Системные требования для локального запуска

Когда выбирать Llama 4

Сравнение моделей семейства Llama 4

Ключевые технические особенности

Бенчмарки Llama 4 Maverick

Как запустить Llama 4 Scout локально

Лицензия Llama 4: что разрешено

Читать ещё

Claude vs Gemini: детальное сравнение для разработчиков

Главные AI-релизы марта 2026: Claude 4.6, GPT-4.5 и Gemini 2.5

Тренды ИИ на 2026 год: прогнозы и реальность