FIPO обошёл o1-mini, Memori режет токены в 20 раз: три исследования недели

Три исследования недели: FIPO обогнал o1-mini в математике, Memori режет токены агентов в 20 раз, и ИИ-гонка давит на энергосети Европы.

FIPO, Memori и исследования ИИ — март 2026

На прошлой неделе на arXiv появились две работы, которые заслуживают внимания практиков: одна про обучение LLM с подкреплением, другая про долгосрочную память агентов. Параллельно WIRED разобрал, как спрос ИИ-индустрии на вычисления упирается в физические ограничения европейских энергосетей. Разбираем все три.

FIPO: reward-сигнал на уровне токенов

Команда из Alibaba и Дартмутского колледжа представила FIPO (Future-KL Influenced Policy Optimization), алгоритм обучения с подкреплением, который решает конкретную проблему GRPO-подобных методов.

Стандартные RL-подходы для LLM (GRPO, REINFORCE) используют outcome-based rewards. Модель получает одну оценку за весь ответ, и она делится поровну на все токены. Токен с ключевым логическим поворотом получает такой же градиент, как служебное слово «therefore». Это создаёт потолок: модель не учится различать важные и неважные шаги рассуждения.

FIPO добавляет в формулу обновления политики дисконтированную future-KL дивергенцию. Каждый токен получает вес пропорционально тому, насколько он повлиял на дальнейшее поведение модели. Вместо uniform advantage получается dense advantage, плотный сигнал вознаграждения.

Результаты на Qwen2.5-32B:

  • AIME 2024 Pass@1: с 50.0% до 58.0% (пик), стабильно около 56%
  • Средняя длина цепочки рассуждений выросла с ~4 000 до 10 000+ токенов
  • Обошёл DeepSeek-R1-Zero-Math-32B (~47%) и o1-mini (~56%)

Код открыт, построен на фреймворке verl. Базовая модель — открытая Qwen2.5-32B, что делает результаты воспроизводимыми без доступа к проприетарным системам.

Потолок RL-обучения LLM, судя по этой работе, во многом определяется гранулярностью вознаграждения. Когда модель получает дифференцированный сигнал по токенам, она учится рассуждать глубже. Скорее всего, это направление подхватят другие группы.

Схема обучения с подкреплением для LLM: от PPO к GRPO и FIPO
Схема RL-обучения LLM. Источник: arXiv

Memori: память агентов через семантические тройки

Второй заметный препринт — Memori, слой персистентной памяти для LLM-агентов. Проблема знакома всем, кто строил чат-ботов или агентные системы: дать модели контекст из прошлых сессий, не раздувая промпт до десятков тысяч токенов.

Стандартный подход — запихнуть историю диалогов в контекст целиком. С ростом истории растёт стоимость, а качество ответов падает: модель начинает «тонуть» в нерелевантном тексте.

Memori предлагает другой путь. Их пайплайн Advanced Augmentation превращает сырые диалоги в компактные семантические тройки (субъект, предикат, объект) и краткие саммари. При запросе система достаёт только релевантные тройки, а не весь текст разговоров.

Цифры на бенчмарке LoCoMo:

  • 81.95% точности, лучше существующих систем памяти
  • 1 294 токена на запрос, около 5% от полного контекста
  • На 67% меньше токенов, чем ближайшие конкуренты
  • В 20 раз дешевле полноконтекстных подходов

Архитектура памяти LLM-агента: семантические тройки и извлечение знаний
Архитектура памяти агента. Источник: Neo4j

Memori не привязан к конкретному провайдеру и работает с любой моделью через API. Для тех, кто строит агентов, вывод прямой: структурированное хранение эффективнее расширения контекстного окна. Платить за 128K-контекст, когда хватает 1 300 токенов, незачем.

ИИ-гонка давит на энергосети Европы

WIRED разобрал ситуацию с энергетикой в Европе. Дата-центры массово подключаются к электросетям, и главное ограничение здесь — транспортировка энергии, а не её генерация.

Сетевые операторы экспериментируют: dynamic line rating (использование пропускной способности линий в зависимости от погоды), перенаправление нагрузки в менее загруженные регионы, приоритетное подключение дата-центров к промышленным узлам.

Строительство новых ЛЭП занимает 5–10 лет, а очередь на подключение дата-центров растёт уже сейчас. Даже если генерирующих мощностей формально хватает, «последняя миля» до потребителя становится бутылочным горлышком.

Для ИИ-индустрии это физический потолок. Чипы и модели становятся эффективнее, но без модернизации электросетей Европа будет отставать от США и Азии по вычислительным мощностям. По данным WIRED, некоторым европейским проектам дата-центров уже приходится ждать подключения годами.

Что объединяет эти три темы

Все три истории — про эффективность на разных уровнях. FIPO точнее распределяет reward при обучении. Memori сжимает контекст, заменяя сырой текст структурированными данными. А европейские энергосети показывают, что даже самые элегантные алгоритмы упираются в физику, где оптимизаций пока не хватает.

Ссылки на работы

Читайте также

Telegram-канал @toolarium