LLM

Словарь терминов LLM: токены, температура, контекстное окно и другие понятия

Толковый словарь терминов LLM и генеративного ИИ на русском языке: 40+ ключевых понятий с объяснениями.

Генеративный ИИ обрастает терминологией быстрее, чем любая другая область технологий. Этот словарь собирает ключевые термины, которые встречаются в обсуждениях LLM, — от базовых понятий до специализированных концепций. Определения написаны для практиков: без лишних упрощений, но и без академического жаргона.

Базовые понятия

LLM (Large Language Model) — большая языковая модель. Нейросеть с миллиардами параметров, обученная предсказывать следующий токен в тексте. После дополнительного обучения (alignment) используется как ассистент, генератор текста, аналитик.

Токен (Token) — минимальная единица текста, с которой работает модель. Может быть словом, частью слова или символом. Для английского 1 токен ≈ 0.75 слова. Для русского — примерно 0.5 слова (кириллица токенизируется менее эффективно). Стоимость API считается в токенах.

Контекстное окно (Context Window) — максимальное количество токенов, которое модель обрабатывает за один запрос. Включает и вход (промпт), и выход (ответ). GPT-4 Turbo: 128K. Claude 3: 200K. Gemini 1.5 Pro: 1M.

Температура (Temperature) — параметр, управляющий случайностью генерации. 0 = детерминированный вывод (всегда самый вероятный токен). 1 = стандартное распределение вероятностей. >1 = более креативный и непредсказуемый. Для кодинга и фактических вопросов: 0–0.3. Для творческих задач: 0.7–1.0.

Top-p (Nucleus Sampling) — альтернатива температуре. Модель рассматривает только токены, чья суммарная вероятность не превышает порога p. Top-p=0.9 означает: из всех возможных продолжений берём те, что покрывают 90% вероятности.

Top-k — модель рассматривает только k самых вероятных токенов. Top-k=50 означает: из всего словаря рассматриваются только 50 наиболее вероятных вариантов.

Архитектура

Трансформер (Transformer) — архитектура нейросети, на которой построены все современные LLM. Представлена Google в 2017 году (Attention Is All You Need). Ключевое отличие от предшественников (RNN, LSTM) — параллельная обработка всей последовательности.

Attention (Внимание) — механизм, позволяющий модели «фокусироваться» на релевантных частях входной последовательности. Self-attention вычисляет связи между каждой парой токенов.

Параметры — числовые веса нейросети. «Модель на 70B параметров» = 70 миллиардов чисел, определяющих поведение модели. Больше параметров — больше ёмкость модели — но и больше требования к памяти.

MoE (Mixture of Experts) — архитектура с несколькими «экспертными» подсетями. При каждом запросе активируется только часть экспертов. Mixtral 8x7B: 47B параметров, но при инференсе работают только 13B. Результат: качество большой модели, скорость маленькой.

Обучение

Pre-training (Предобучение) — первый этап обучения LLM. Модель учится предсказывать следующий токен на триллионах токенов из интернета, книг, кода. Требует тысячи GPU и месяцы вычислений.

Fine-tuning (Дообучение) — обучение предварительно обученной модели на специализированных данных. Позволяет адаптировать поведение модели: стиль ответов, формат, специализацию.

LoRA (Low-Rank Adaptation) — метод fine-tuning, при котором обучаются только маленькие адаптерные матрицы, а основные веса модели заморожены. Экономит 90%+ памяти по сравнению с полным fine-tuning.

QLoRA — LoRA + квантизация. Базовая модель загружается в 4-битной точности. Позволяет дообучить модель 70B на одном GPU 48GB.

RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе обратной связи людей. Люди сравнивают ответы, модель учится генерировать предпочитаемые. Ключевой метод alignment у OpenAI.

DPO (Direct Preference Optimization) — упрощённая альтернатива RLHF. Не требует отдельной reward model — оптимизирует модель напрямую по парным предпочтениям. Проще, стабильнее, популярна в open-source.

Constitutional AI (CAI) — метод Anthropic. Модель сама оценивает свои ответы по набору принципов и учится на ревизиях. Масштабируемее RLHF.

Инференс и оптимизация

Инференс (Inference) — процесс генерации ответа обученной моделью. В отличие от обучения, инференс менее требователен к вычислениям, но для больших моделей всё равно нужен GPU.

Квантизация (Quantization) — сжатие модели путём уменьшения точности чисел. fp16 → int8 = размер вдвое. fp16 → int4 = размер в четыре раза. Потери качества: 1–5% при 4-битной квантизации.

GGUF — формат файла квантизованной модели для llama.cpp и Ollama. Q4_K_M — самый популярный вариант квантизации.

vLLM — высокопроизводительный сервер инференса с PagedAttention. Стандарт для production-деплоя LLM.

KV Cache — кэширование промежуточных вычислений attention (Key, Value) для ускорения авторегрессионной генерации. Без кэша каждый новый токен требует пересчёта всех предыдущих.

RAG и поиск

RAG (Retrieval-Augmented Generation) — метод, при котором модель получает релевантные документы из внешней базы перед генерацией ответа. Решает проблему устаревших знаний и галлюцинаций.

Эмбеддинг (Embedding) — числовой вектор, представляющий смысл текста. Семантически близкие тексты имеют близкие эмбеддинги. Размерность: 384–3072.

Векторная база данных — хранилище эмбеддингов с быстрым поиском ближайших соседей. Pinecone, Qdrant, Weaviate, Chroma, pgvector.

Чанкинг (Chunking) — разбиение документов на фрагменты для индексации. Размер чанка влияет на точность поиска.

Агенты и инструменты

Tool Use / Function Calling — возможность модели вызывать внешние функции (API, поиск, выполнение кода). Модель решает, когда вызвать функцию, формирует параметры, использует результат.

ИИ-агент (AI Agent) — система на основе LLM, которая автономно выполняет задачи: планирует действия, использует инструменты, наблюдает результаты, корректирует план.

ReAct — паттерн «Reasoning + Acting»: модель чередует рассуждения (Thought) и действия (Action), наблюдая результат (Observation).

Computer Use — возможность ИИ-модели управлять компьютером через GUI: кликать, набирать текст, навигировать. Реализовано Anthropic в Claude 3.5.

Безопасность

Alignment — настройка модели на следование человеческим ценностям и намерениям. Цель: модель полезна, честна и безвредна.

Галлюцинация (Hallucination) — генерация уверенной, но ложной информации. Модель не «знает», что врёт — она генерирует статистически вероятное продолжение.

Jailbreak — метод обхода ограничений модели через специальные формулировки промпта.

Prompt Injection — атака, при которой вредоносные инструкции внедряются во входные данные модели (через пользовательский текст, веб-страницы, документы).

Red Teaming — систематическое тестирование модели на устойчивость к вредоносным запросам. Проводится перед выпуском.

Guardrails — ограничения поведения модели в production-системе: фильтры тем, форматов, действий. Дополнительный уровень безопасности поверх alignment.

Генерация изображений

Диффузионная модель (Diffusion Model) — генерирует изображения, пошагово убирая шум из случайного начального состояния. Stable Diffusion, DALL-E 3, Midjourney.

ControlNet — дополнение к Stable Diffusion для управления генерацией через позы, контуры, карты глубины.

LoRA (для изображений) — дообучение модели генерации на небольшом наборе изображений. 20–50 фотографий → кастомный стиль или лицо.

Img2img — генерация нового изображения на основе исходного с заданной степенью изменений.

Этот словарь обновляется по мере развития отрасли. Если не нашли нужный термин — напишите, и мы его добавим.

Словарь терминов LLM: токены, температура, контекстное окно и другие понятия

Базовые понятия

Архитектура

Обучение

Инференс и оптимизация

RAG и поиск

Агенты и инструменты

Безопасность

Генерация изображений

Читайте также

Читать ещё

Яндекс Нейро: что умеет, как использовать и чем отличается от ChatGPT

Whisper OpenAI: транскрибация и перевод речи нейросетью — полный гайд

Stable Diffusion на русском: как установить, настроить и генерировать изображения локально