Редкие навыки LLM: почему большие модели не забывают то, что малые теряют

Работа Anthropic, Stanford и партнёров показывает, почему редкие навыки LLM теряются в малых моделях и как частота задачи в обучающей смеси может быть важнее грубого роста данных.

Редкие навыки LLM: график влияния размера OLMo-модели и частоты задачи на loss редкой задачи

Проверено 7 июня 2026 года. Редкие навыки LLM — это задачи или правила, которые встречаются в обучающей смеси настолько редко, что модель должна удерживать слабый сигнал между разнесёнными примерами. Новая работа исследователей из Goodfire, Stanford University, Kempner Institute at Harvard University, MIT и Anthropic объясняет, почему крупные модели справляются с этим лучше: частые задачи меньше затирают редкий сигнал, и модель успевает накопить его до обобщения.

Практический вывод не сводится к «берите модель побольше». Авторы показывают более полезную механику: иногда целевой навык можно закрепить повышением его частоты в обучающей смеси. Такой приём не закрывает весь разговор о масштабе, зато хорошо спорит со слепым подходом «добавим ещё токенов и подождём».

Что именно нашли исследователи

Работа Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention появилась на arXiv 28 мая 2026 года, последняя версия вышла 1 июня. 7 июня её разобрал The Decoder. В центре статьи — не общий спор о том, «почему большие языковые модели умнее», а узкая причина: как модель распределяет ограниченные параметры между частыми, простыми, редкими и сложными задачами.

Авторы сначала строят синтетическую постановку с набором задач разной частоты и сложности. В такой смеси малая модель охотнее тратит параметры на частые или простые признаки. Редкая задача может быть выразима в архитектуре, но всё равно не закрепиться: она слишком редко появляется, чтобы выдержать конкуренцию с регулярными обновлениями от основной массы данных.

Если отвечать коротко: большие LLM лучше удерживают редкие навыки, потому что после освоения частых задач их градиентные обновления меньше мешают редким признакам. Модель может не начинать заново при каждом редком примере, а накапливать слабый сигнал между появлениями задачи.

Почему малая модель учит и тут же забывает

В статье это называют update-and-forget loop: модель получает редкий пример, немного двигается в правильную сторону, а затем следующие батчи с частыми задачами откатывают этот сдвиг. Когда похожий редкий пример встречается снова, обучение почти начинается с нуля.

У большой модели конкуренция мягче. Частые задачи быстрее занимают свои устойчивые представления, а их последующие обновления становятся слабее. За счёт этого редкий признак не выбивается из параметров сразу после появления. В терминах статьи, масштаб снижает градиентную интерференцию: обновления от общей языковой задачи меньше конфликтуют с направлением, нужным для редкого навыка.

Механика Малая модель Большая модель Что делать с датасетом
Частые задачи Забирают большую часть параметров Быстрее стабилизируются Не мерить качество только общим loss
Редкие задачи Сигнал легко стирается Сигнал дольше держится между примерами Проверять удержание навыка, а не только первое попадание
Повышение частоты Может быть дешевле роста модели, но не гарантирует успех Помогает быстрее накопить правило Аккуратно увеличивать долю целевой задачи и смотреть на обобщение
Графики rare-task retention: узкая модель теряет редкий сигнал, широкая модель накапливает его между появлениями задачи
Фигура из работы Huang et al.: в узких моделях редкий сигнал быстро затухает после появления, а в широких моделях лучше удерживается и накапливается. Источник: arXiv:2605.29548.

Что показали эксперименты на OLMo

Чтобы проверить механизм не только на игрушечной постановке, авторы обучали модели семейства OLMo размером 4M, 20M, 300M, 1B и 4B параметров. Корпус — Dolma v1.7, объём обучения — до 210 млрд токенов, примерно 50 тыс. шагов. В данные добавляли две искусственные задачи: сравнение чисел и модульное сложение.

Частоту этих задач контролировали жёстко: от 7,8 × 10-3 до 2,4 × 10-8 на токен. В пересчёте авторов это диапазон примерно от тысячи примеров на батч до одного примера на десять батчей. У каждой искусственной задачи было 10 тыс. экземпляров, разделённых поровну на обучение и тест. Такой дизайн нужен, чтобы отличить запоминание отдельных примеров от настоящего обобщения правила.

Результат совпал с теорией. Крупные OLMo-модели лучше учили низкочастотные задачи и чаще доходили до обобщения. На модульном сложении авторы наблюдали grokking: сначала модель запоминает примеры, а позднее резко начинает применять правило. Но этот переход появлялся только у больших моделей и только тогда, когда задача встречалась достаточно часто.

Графики OLMo: loss по редкой задаче зависит от частоты задачи, размера модели и вычислительного бюджета
График из исходников статьи: при низкой частоте задачи простой рост вычислений не всегда быстро снижает loss, а более частые появления задачи заметно меняют картину. Источник: arXiv:2605.29548.

Чем это отличается от fine-tuning

Здесь легко сделать неправильный вывод: будто исследование просто говорит «добавьте больше примеров нужного класса». На самом деле речь о pre-training-смеси и о том, как редкий навык выживает среди огромного потока других обновлений. Это рядом с темой fine-tuning языковых моделей, но не то же самое. Дообучение обычно происходит уже после базового обучения и решает задачу адаптации; работа Huang et al. разбирает, почему часть навыков вообще не закрепляется в базе.

Для команд, которые обучают или дообучают модели под редкие корпоративные сценарии, важен не только объём данных. Нужны отдельные проверки на удержание: модель должна сохранять навык после длинного промежутка обычных задач. Иначе можно увидеть красивый результат сразу после примеров целевого класса, а затем потерять его в реальном потоке.

Где малые модели остаются полезны

Исследование не доказывает, что малые модели бесполезны. Наоборот, оно помогает точнее говорить, где их граница. Малые специализированные модели по-прежнему могут быть выгодны по цене, задержке и контролю, особенно если задача частая и узкая. Мы уже разбирали это на примере материала про малые модели против frontier API.

Но если нужный навык редкий, сложный и должен обобщаться за пределы виденных примеров, одной экономии может быть мало. В таком случае стоит проверять не только среднюю точность, но и хвост распределения: какие задачи модель видит редко, что она с ними делает через тысячи обычных запросов и не появляется ли тот самый цикл «выучила — забыла».

Контекст Anthropic здесь тоже важен. Компания много говорит о pre-training как о стратегическом уровне качества модели; мы отдельно писали о том, почему ставка на pre-training Claude отличается от косметической настройки поведения. Новая работа добавляет к этому разговору конкретную механику: не все навыки одинаково переживают смесь данных.

Где границы исследования

Авторы аккуратно ограничивают выводы. OLMo-эксперименты проводились на специально добавленных задачах, а не на полном наборе естественных навыков production-моделей. В статье прямо сказано, что поведение более крупных или переобученных языковых моделей не проверялось. Частоты задач тоже выбраны так, чтобы соответствовать наблюдаемым задачам в OLMo pre-training, но это не покрывает все возможные режимы обучения.

Поэтому сильная формулировка такая: исследование даёт data-centric объяснение, почему масштаб помогает некоторым редким навыкам закрепляться. Оно не отменяет другие причины успеха больших моделей — выразительность, sample efficiency, архитектурные детали и качество корпуса. Но оно показывает, почему общий loss может скрывать важную проблему: модель улучшается в среднем и всё равно теряет хвостовые навыки.

Короткий вывод

Редкие навыки LLM стоит оценивать отдельно. Если задача появляется редко, малая модель может не «не понимать» её в принципе, а постоянно терять слабый сигнал между появлениями. Большая модель выигрывает не магией масштаба, а меньшей интерференцией: частые задачи перестают так сильно стирать редкие признаки.

Для исследователей это аргумент внимательнее проектировать смеси данных. Для продуктовых команд — повод тестировать удержание редких сценариев, особенно если модель должна работать с длинным хвостом запросов. Иногда правильный вопрос не «насколько модель большая», а «достаточно ли часто она видит навык, который мы от неё ждём».

Читайте также

Источники и проверка фактов

Telegram-канал @toolarium