LLM

Новая архитектура Transformer: адаптивные циклы и банки памяти вместо глубины

Немецкие исследователи предложили Transformer с адаптивными циклами и банками памяти. Модель на 12 слоёв обходит классическую 36-слойную на математических бенчмарках на 6,4%.

Языковые модели умеют рассуждать пошагово через chain-of-thought, но за каждый промежуточный шаг приходится платить токенами. Группа немецких исследователей из Lamarr Institute, Fraunhofer IAIS и Боннского университета предложила другой подход: пусть модель сама решает, сколько раз прогнать данные через один и тот же вычислительный блок. А для хранения фактов ей дали отдельные банки памяти.

Модель с 12 слоями и тройным циклом обходит классическую 36-слойную модель на математических бенчмарках. Статья опубликована на arXiv и представлена на воркшопе Latent & Implicit Thinking на ICLR 2026.

Коротко: 12-слойная модель с адаптивными циклами и банками памяти обходит обычную 36-слойную на 6,4% в математике — при том же объёме вычислений. Циклы помогают рассуждать, а внешняя память хранит факты. Два механизма работают в связке и усиливают друг друга.

Обычный Transformer (слева) пропускает данные через каждый слой один раз. Циклическая модель (центр) повторяет блоки несколько раз. Комбинированная модель (справа) дополнительно обращается к локальной и глобальной памяти. Источник: Frey et al., arXiv:2603.08391

Как устроена архитектура

В основе лежит decoder-only Transformer на 12 слоёв и примерно 200 миллионов параметров, обученный на 14 миллиардах токенов из датасета FineWeb Edu. Исследователи добавили к нему два механизма.

Первый — адаптивные циклы. Каждый слой получил обучаемый механизм остановки (halting mechanism). Вместо однократного прохода данных через блок слой может прогнать их повторно, до 3, 5 или 7 раз в зависимости от конфигурации. Модель сама учится, когда повторять вычисления, а когда хватит одного прохода.

Второй — банки памяти. К каждому слою подключены 1024 локальных слота памяти, плюс 512 глобальных слотов, общих для всех слоёв. Это добавляет около 10 миллионов параметров, менее 5% от общего числа. Доступ к памяти управляется гейтами, которые модель обучает совместно с остальными весами.

Циклы дают модели дополнительное «время на размышление» без генерации промежуточных токенов. Банки памяти компенсируют нехватку уникальных весов для хранения фактов, которая возникает при повторном использовании одних и тех же слоёв.

Циклы решают математику, память закрывает знания

Два механизма разделили зоны ответственности довольно чётко.

Модель с тройным циклом набрала на 22% больше на математических задачах по сравнению с базовой версией без циклов. Самый заметный рост показали подкатегории Precalculus (+31%) и Intermediate Algebra (+26%). На задачах, требующих бытовых знаний (социальные ситуации, физическая интуиция), циклы почти не помогли. При увеличении числа итераций результаты там даже немного снижались.

Банки памяти закрыли другую проблему. Бытовые знания нельзя получить повторным обдумыванием, их нужно где-то хранить. Память добавила 4,2% на математике и 2% на задачах здравого смысла по сравнению с вариантом без неё.

Главный результат: 12-слойная модель с тройным циклом против классической 36-слойной модели при том же объёме вычислений (iso-FLOP). При втрое меньшем числе слоёв циклическая модель оказалась на 6,4% лучше на математических бенчмарках.

Ранние слои экономят, поздние работают интенсивнее

Хотя модель не получает штрафа за число итераций, специализация слоёв возникает сама собой. Ранние слои обучаются повторять вычисления минимально и почти не обращаются к памяти. Поздние, наоборот, активно используют и циклы, и банки памяти.

Поздние слои (тёмно-синие) повторяют вычисления значительно чаще ранних (жёлтые). Модели начинают активно использовать циклы только после достижения определённого уровня языковой компетенции. Источник: Frey et al., arXiv:2603.08391

Это согласуется с предыдущими исследованиями: ранние слои Transformer кодируют локальные синтаксические паттерны, а поздние обрабатывают более сложные семантические и логические операции. Простые вычисления не выигрывают от повторных проходов, а вот сложные операции в глубоких слоях — вполне.

Есть и эффект порога. В начале обучения модели почти не используют циклы, хотя могут. Только когда модель достаточно хорошо освоила язык, она начинает повторять вычисления. По данным исследователей, этот порог срабатывает примерно в одной и той же точке для всех конфигураций. Сначала нужно научиться языку, и лишь потом можно извлечь пользу из повторного обдумывания.

Больше вычислений требует больше знаний

Авторы видят в результатах подтверждение того, как распределены роли внутри Transformer. Feed-forward слои работают как хранилище фактических ассоциаций, а слои внимания маршрутизируют и обрабатывают информацию. Циклы улучшают маршрутизацию, но не могут компенсировать недостаток ёмкости хранения.

Слои, которые чаще повторяют вычисления, также чаще обращаются к локальной памяти. Глобальная память, напротив, распределяется равномерно по всем слоям. Циклы и память работают в связке: больше вычислений требует больше фактов.

Слои с частыми итерациями активнее обращаются к локальной памяти (центр). Глобальная память распределяется равномерно (справа). Источник: Frey et al., arXiv:2603.08391

Ограничения и что дальше

Авторы обозначают границы работы. Эксперименты проводились на модели с 200 миллионами параметров и 14 миллиардами токенов обучения, это небольшой масштаб по современным меркам. Сохранится ли эффект для моделей с миллиардами параметров, которые уже обладают значительной встроенной ёмкостью, пока неизвестно.

Важная оговорка: все эксперименты проведены на модели с 200M параметров. Сохранится ли эффект на масштабе миллиардов параметров — открытый вопрос. Но сам принцип «адаптивная глубина вместо фиксированной» выглядит перспективно.

Вместо наращивания числа слоёв (а с ними параметров и стоимости обучения) можно дать модели возможность самой выбирать глубину обработки для каждой задачи. Внешние банки памяти решают проблему хранения фактов без увеличения числа уникальных весов.

Для тех, кто следит за развитием промпт-инжиниринга и техник вроде chain-of-thought, работа ставит практичный вопрос: возможно, вербализация рассуждений не единственный способ заставить модель думать. А для проектирования open-source моделей адаптивные циклы могут стать способом получить производительность большой модели при заметно меньших затратах.

Новая архитектура Transformer: адаптивные циклы и банки памяти вместо глубины

Как устроена архитектура

Циклы решают математику, память закрывает знания

Ранние слои экономят, поздние работают интенсивнее

Больше вычислений требует больше знаний

Ограничения и что дальше

Читайте также

Похожие статьи

XCENA: почему AI-инференс упирается в память

Mistral Vibe: рабочая агентная платформа для команд

Квантизация LLM может ломать alignment: почему perplexity не хватает

Cohere Command A+: зачем enterprise LLM открывают под Apache 2.0