LLM

Что такое LLM и как работают большие языковые модели

Разбираем архитектуру больших языковых моделей: трансформеры, токенизация, обучение. Почему GPT, Claude и Llama отвечают так, будто понимают текст.

Большие языковые модели — технология, которая за три года прошла путь от исследовательских лабораторий до повседневного инструмента миллионов людей. ChatGPT набрал 100 миллионов пользователей за два месяца после запуска в ноябре 2022-го. Но что стоит за этими системами? Как устроен механизм, который генерирует связный текст, пишет код и переводит между языками?

Трансформер: архитектура, изменившая NLP

Фундамент всех современных LLM — архитектура Transformer, представленная исследователями Google в статье Attention Is All You Need (2017). До трансформеров обработка естественного языка опиралась на рекуррентные сети (RNN, LSTM), которые обрабатывали текст последовательно — слово за словом. Трансформер сломал эту парадигму: механизм внимания (attention) позволяет модели смотреть на все слова входной последовательности одновременно.

Ключевой компонент — self-attention. Для каждого слова модель вычисляет, насколько оно связано с каждым другим словом в контексте. Когда модель обрабатывает предложение «Кот сидел на коврике, потому что он устал», механизм внимания устанавливает связь между «он» и «кот», а не «коврик». Это происходит математически: через три матрицы — Query, Key и Value — для каждого токена.

Параллельная обработка дала трансформерам огромное преимущество в скорости обучения. В отличие от рекуррентных сетей, трансформеры полностью используют возможности GPU для параллельных вычислений. Именно это позволило масштабировать модели до сотен миллиардов параметров.

Токенизация: как модель видит текст

LLM не работают со словами напрямую. Входной текст разбивается на токены — фрагменты, которые могут быть словами, частями слов или отдельными символами. Наиболее распространённый алгоритм — BPE (Byte Pair Encoding), разработанный для сжатия данных и адаптированный для NLP.

Для английского языка обычное слово — один-два токена. Для русского — часто больше: морфология сложнее, и токенизатор разбивает слова на корни, суффиксы, окончания. Слово «программирование» может занять три-четыре токена. Поэтому работа с русским текстом обходится дороже в пересчёте на количество слов.

Словарь токенов у современных моделей — от 32 000 до 200 000 единиц. GPT-4 использует примерно 100 000 токенов, модели Llama 3 — 128 000. Размер словаря влияет на баланс между эффективностью (меньше токенов на текст) и размером модели.

Обучение: три этапа

Создание LLM включает три последовательных этапа, каждый из которых решает свою задачу.

Предобучение (pre-training)

На первом этапе модель обучается на огромном корпусе текстов — триллионы токенов из интернета, книг, кода, научных статей. Задача проста: предсказать следующий токен по предыдущим. Модель GPT-3 обучалась на 300 миллиардах токенов, Llama 3 — на 15 триллионах. Это этап, требующий тысяч GPU и месяцев вычислений. По оценкам, обучение GPT-4 стоило более 100 миллионов долларов.

После предобучения модель умеет продолжать текст, но не умеет вести диалог и может выдавать нежелательный контент. Поэтому нужны следующие этапы.

Дообучение с учителем (supervised fine-tuning)

Модели показывают примеры правильных ответов на вопросы: тысячи пар «вопрос — ответ», написанных людьми. На этом этапе модель учится формату диалога, структурированным ответам и следованию инструкциям.

Обучение с подкреплением (RLHF)

Reinforcement Learning from Human Feedback — метод, который Anthropic и OpenAI используют для тонкой настройки поведения модели. Люди сравнивают варианты ответов и выбирают лучший. На основе этих предпочтений обучается модель вознаграждения, которая затем направляет LLM к более качественным ответам.

Anthropic развила этот подход до RLAIF — обучения с подкреплением на основе обратной связи от ИИ, где часть оценки ответов делегируется другой модели. Это позволяет масштабировать процесс и снижать зависимость от человеческой разметки.

Контекстное окно и память

LLM не имеют долговременной памяти в традиционном понимании. Вся информация, доступная модели при генерации ответа, должна уместиться в контекстное окно — фиксированное количество токенов, которые модель обрабатывает за один запрос.

Размеры контекстных окон стремительно растут. GPT-3 (2020) — 4 096 токенов. GPT-4 Turbo (2024) — 128 000. Claude 3 от Anthropic — 200 000 токенов, что примерно равно 500 страницам текста. Google Gemini 1.5 Pro поддерживает до миллиона токенов.

Большое контекстное окно позволяет анализировать целые кодовые базы, длинные документы и книги за один запрос. Но увеличение окна не бесплатно: вычислительная сложность attention растёт квадратично относительно длины последовательности. Поэтому исследователи разрабатывают оптимизации — FlashAttention, скользящее окно, разреженное внимание.

Параметры и масштабирование

Когда говорят «модель на 70 миллиардов параметров», имеют в виду количество числовых весов в нейронной сети. Каждый параметр — число с плавающей запятой, обычно хранимое в формате float16 (2 байта) или bfloat16. Модель на 70 млрд параметров занимает около 140 ГБ в fp16.

Законы масштабирования (scaling laws), описанные исследователями OpenAI и DeepMind, показывают предсказуемую зависимость: с ростом числа параметров и объёма обучающих данных качество модели улучшается по степенному закону. Это открытие мотивировало гонку за размером моделей в 2022–2024 годах.

Но масштабирование — не единственный путь. Модели Mistral и Phi доказали, что компактные модели на 7–14 млрд параметров, обученные на качественных данных, могут конкурировать с моделями в 5–10 раз крупнее. Качество данных оказалось не менее важным, чем их количество.

Инференс: как модель генерирует ответ

Генерация текста происходит токен за токеном. Модель получает входной текст, вычисляет вероятности для каждого возможного следующего токена и выбирает один. Затем добавляет его к входу и повторяет процесс. Этот авторегрессионный подход объясняет, почему генерация длинных текстов занимает время — каждый следующий токен зависит от всех предыдущих.

Параметр temperature управляет степенью случайности. При temperature=0 модель всегда выбирает самый вероятный токен (детерминированный вывод). При temperature=1 распределение вероятностей остаётся исходным. Значения выше 1 делают ответы более случайными и креативными, но менее точными.

Другой параметр — top-p (nucleus sampling) — ограничивает выбор токенами, чья суммарная вероятность не превышает заданного порога. При top-p=0.9 модель рассматривает токены, покрывающие 90% вероятностной массы, отбрасывая маловероятные варианты.

Ограничения: что LLM не умеют

Языковые модели предсказывают текст, а не «думают» в человеческом смысле. Отсюда характерные ограничения.

Галлюцинации — модель уверенно генерирует ложную информацию. Она не различает факт и вымысел, а подбирает статистически вероятное продолжение. Если модель не «знает» ответ, она скорее сгенерирует правдоподобный, чем откажется отвечать.

Отсутствие актуальности — знания модели ограничены датой обучения. Без подключения к внешним источникам (RAG, поиск) модель не знает о событиях после этой даты.

Арифметика и логика — задачи, требующие точных вычислений, остаются слабым местом. Модель может ошибиться в умножении больших чисел, потому что она не вычисляет, а генерирует ответ на основе паттернов из обучающих данных. Техники вроде chain-of-thought prompting частично решают эту проблему, заставляя модель «рассуждать» пошагово.

Что дальше

Рынок LLM развивается в нескольких направлениях одновременно. Открытые модели — Llama от Meta, Mistral, Qwen от Alibaba — сокращают разрыв с закрытыми системами. Мультимодальность становится стандартом: модели работают не только с текстом, но и с изображениями, аудио, видео. Агентные системы учатся выполнять цепочки действий — вызывать функции, писать и запускать код, взаимодействовать с внешними сервисами.

Понимание архитектуры LLM — не академическое упражнение. Это практическое знание, которое помогает грамотно формулировать запросы, выбирать модель под задачу и понимать границы возможного.

Часто задаваемые вопросы

Что такое LLM (большая языковая модель)?

LLM (Large Language Model) — это нейронная сеть, обученная на огромных массивах текста. Она предсказывает следующий токен (слово или часть слова) на основе предыдущего контекста. GPT-4, Claude, Gemini — всё это LLM.

Чем отличается LLM от обычного поиска?

Поиск находит существующие документы по ключевым словам. LLM генерирует новый текст, синтезируя знания из обучающих данных. LLM может объяснять, рассуждать и создавать контент — поиск этого не умеет.

Какие LLM лучше всего понимают русский язык?

Для русского языка хорошо подходят: GPT-4o (OpenAI), Claude 3.5 Sonnet (Anthropic), Gemini 1.5 Pro (Google), YandexGPT (Яндекс), GigaChat (Сбер). Последние два специально оптимизированы для русского.

Можно ли запустить LLM локально без интернета?

Да. Через Ollama можно запустить Llama 3, Mistral, Qwen и другие модели прямо на своём компьютере. Для небольших моделей (7B параметров) достаточно 8 ГБ ОЗУ, для крупных (70B) нужна видеокарта с 40+ ГБ VRAM.