Llama 4: Meta открывает модель нового поколения

Meta выпустила Llama 4 — разбираем архитектуру, бенчмарки и значение для open-source ИИ.

Llama 4: Meta открывает модель нового поколения

Meta выпустила Llama 4 — четвёртое поколение открытой языковой модели, которая задаёт стандарт для open-source ИИ. Семейство включает два варианта: Scout (17 миллиардов активных параметров, 16 экспертов) и Maverick (17B активных, 128 экспертов). Оба используют архитектуру Mixture of Experts (MoE), что делает их значительно быстрее при инференсе, чем «плотные» модели сопоставимого качества.

Архитектура Mixture of Experts

MoE — подход, при котором модель состоит из множества «экспертных» подсетей. Для каждого токена активируются только 1–2 эксперта из всех доступных. Scout с 16 экспертами активирует 1 из 16 — фактически обрабатывая запрос как модель в 17B параметров, имея при этом знания модели в 109B. Maverick с 128 экспертами масштабирует этот подход дальше.

Практический результат: Llama 4 Scout работает на одной GPU A100 80GB, при этом по качеству конкурирует с Gemini 2.0 Flash и GPT-4o mini.

Контекст и мультимодальность

Llama 4 Scout поддерживает контекстное окно в 10 миллионов токенов — рекордное среди открытых моделей. Это позволяет загрузить целую кодовую базу или книгу для анализа. Мультимодальность: модели понимают текст и изображения (vision encoder на базе MetaCLIP), генерация изображений не поддерживается.

Бенчмарки

Scout превосходит Gemma 2 26B, Mistral Small и предыдущий Llama 3.1 8B на большинстве тестов. Maverick конкурирует с GPT-4o и Claude 3.5 Sonnet на задачах программирования и рассуждения, уступая на мультимодальных тестах.

На русском языке Llama 4 показывает улучшение по сравнению с Llama 3 — Meta расширила обучающий датасет мультиязычными данными. Качество русского текста приближается к GPT-4o mini, но уступает Claude.

Лицензия и доступность

Llama 4 распространяется под лицензией Llama Community License — бесплатно для коммерческого использования при менее чем 700 миллионах ежемесячных пользователей. Модели доступны на Hugging Face, через Ollama, vLLM и все основные облачные платформы.

Что это значит для рынка

Llama 4 продолжает стратегию Meta по демократизации ИИ. Открытая модель уровня GPT-4o mini снижает барьер входа для разработчиков и компаний, которые не хотят зависеть от API закрытых провайдеров. MoE-архитектура делает развёртывание экономичнее — меньше GPU для того же качества. Для экосистемы LoRA-адаптеров и fine-tuning это означает новую базовую модель с лучшим балансом качества и стоимости.

Подробнее: Как настроить локальную языковую модель

Что нового в Llama 4

Llama 4 — четвёртое поколение открытых языковых моделей Meta. Ключевые улучшения по сравнению с Llama 3:

  • Мультимодальность — нативная поддержка изображений, видео и аудио
  • Mixture of Experts (MoE) — архитектура с экспертами повышает эффективность при сопоставимом качестве
  • Увеличенный контекст — до 10M токенов в Scout-версии
  • Лучший код и рассуждения — значительный прогресс на бенчмарках MATH и HumanEval

Модели в линейке Llama 4

МодельПараметрыТипПрименение
Llama 4 Scout17B активных / 109B всегоMoE, мультимодальнаяЛокальный запуск, длинный контекст
Llama 4 Maverick17B активных / 400B всегоMoE, мультимодальнаяБаланс качества и скорости
Llama 4 Behemoth~2 трлн параметровFrontierИсследования, API (закрытая)

Лицензия и доступность

Llama 4 Scout и Maverick доступны под лицензией Llama 4 Community License:

  • Бесплатное использование для исследований и коммерческих продуктов
  • Ограничение: нельзя использовать для обучения других LLM
  • Доступны на Hugging Face и через Meta API

Как запустить Llama 4 локально

Через Ollama (при наличии достаточного GPU):

# Scout-версия (требует ~40GB VRAM для fp16)
ollama pull llama4:scout

ollama run llama4:scout "Объясни принципы MoE архитектуры"

Для Scout в 4-bit квантизации достаточно ~24GB VRAM (RTX 3090/4090).

Llama 4 vs конкуренты

МодельОткрытаяМультимодальнаяРазмер контекста
Llama 4 Scout10M токенов
Gemma 3 27B128K токенов
Qwen2.5-VL 72B128K токенов
GPT-4o128K токенов

Llama 4 — самое серьёзное обновление Meta в гонке открытых моделей. Подробнее о других open-source моделях — в нашем обзоре open-source LLM.

Llama 4: архитектура и ключевые характеристики

Llama 4 — семейство open-source языковых моделей от Meta, выпущенное в 2025 году. Главное нововведение — переход на архитектуру Mixture of Experts (MoE) для старших моделей, что позволяет резко увеличить общее число параметров без пропорционального роста вычислительных затрат на инференс.

МодельПараметры (всего / активных)КонтекстМультимодальностьЛицензия
Llama 4 Scout109B / 17B активных (16 экспертов)10M токеновТекст + изображенияLlama 4 Community
Llama 4 Maverick400B / 17B активных (128 экспертов)1M токеновТекст + изображенияLlama 4 Community
Llama 4 Behemoth2T / ~200B активныхTBDТекст + изображенияTBD (в разработке)

Mixture of Experts: почему это важно

В классических dense-моделях (Llama 3, GPT-4) все параметры задействуются при каждом токене. В MoE-архитектуре модель содержит множество «экспертных» подсетей, из которых для каждого токена активируется только несколько. Результат: Llama 4 Maverick с 400B параметрами использует только 17B при инференсе — это сопоставимо с Llama 3 70B по вычислительным затратам, но превосходит её по качеству.

Производительность: бенчмарки

ТестLlama 4 MaverickGPT-4oClaude 3.5 SonnetGemini 2.0 Flash
MMLU85.5%87.2%88.7%83.2%
HumanEval (код)77.1%90.2%93.7%85.0%
MATH61.2%76.6%78.3%71.0%
DocVQA (мультимодальность)94.4%92.8%89.9%92.1%

Системные требования для локального запуска

Llama 4 Scout (109B, MoE): требует ~40GB VRAM в квантизации INT4. Запускается на двух NVIDIA RTX 4090 или одной A100 80GB. Через Ollama доступна квантизация Q4_K_M.

Llama 4 Maverick (400B, MoE): для локального инференса нужен кластер GPU с минимум 8×A100 80GB. Большинству пользователей доступен только через API (Groq, Together AI, Fireworks).

Когда выбирать Llama 4

Llama 4 — лучший выбор когда: данные нельзя передавать в сторонние облака (корпоративная тайна, персональные данные), нужна кастомизация модели под конкретную задачу (fine-tuning), требуется предсказуемая стоимость без зависимости от API.

Для большинства продакшен-задач Llama 4 Scout через API-провайдеров (Groq, Together AI) конкурентоспособна с GPT-4o mini по соотношению цены и качества.

Сравнение моделей семейства Llama 4

МодельПараметрыКонтекстСпециализацияЛицензия
Llama 4 Scout17B активных / 109B total (MoE)10M токеновДлинный контекст, документыLlama 4 Community
Llama 4 Maverick17B активных / 400B total (MoE)1M токеновМультимодальность, общие задачиLlama 4 Community
Llama 4 Behemoth (preview)288B активных / 2T totalНе раскрытFrontier-исследованияЗакрытая

Ключевые технические особенности

  • MoE архитектура: Mixture of Experts — активируется только часть параметров на каждый токен, что снижает стоимость инференса при сохранении качества большой модели
  • Нативная мультимодальность: Maverick обрабатывает текст и изображения в одной архитектуре — без отдельного image encoder
  • 10M контекст Scout: Meta использовала iRoPE (interleaved RoPE) для масштабирования позиционного кодирования до 10M токенов без потери производительности
  • Early Fusion: изображения и текст объединяются на уровне токенов, что улучшает понимание взаимосвязей визуального и текстового контента

Бенчмарки Llama 4 Maverick

  • MMLU: 85.5% — сопоставимо с GPT-4o (87.2%) при полностью открытых весах
  • MATH: 73.8% — выше Llama 3.3 70B (77.0% при значительно большем числе параметров)
  • HumanEval (код): 77.6% — конкурентоспособно с проприетарными моделями среднего класса
  • Мультимодальность (MMMU): 73.4% — на уровне GPT-4V

Как запустить Llama 4 Scout локально

# Через Ollama (упрощённый вариант)
ollama pull llama4:scout
ollama run llama4:scout

# Через Hugging Face Transformers
from transformers import pipeline
pipe = pipeline(
    'text-generation',
    model='meta-llama/Llama-4-Scout-17B-16E-Instruct',
    device_map='auto'
)
result = pipe('Объясни принцип работы MoE архитектуры')
print(result[0]['generated_text'])

Лицензия Llama 4: что разрешено

  • Коммерческое использование разрешено (включая API-продукты)
  • Ограничение: компании с MAU >700 млн требуют отдельной лицензии от Meta
  • Fine-tuning разрешён; производные модели должны сохранять маркировку «Llama»
  • Список запрещённых применений: оружие, дезинформация, нарушение конфиденциальности