MetaClaw: ИИ-агент, который учится на ошибках, пока вы на совещании

Исследователи из четырёх университетов представили MetaClaw — фреймворк, который позволяет ИИ-агентам учиться на ошибках и дообучаться через LoRA, пока пользователь на совещании. Kimi-K2.5 с MetaClaw догнал GPT-5.2.

MetaClaw: фреймворк для непрерывного обучения ИИ-агентов — GitHub-репозиторий

Исследователи из четырёх американских университетов представили фреймворк, который позволяет ИИ-агентам улучшаться в процессе работы. Система проверяет Google Calendar пользователя, чтобы определить, когда запустить обучение, не мешая работе.

ИИ-агенты не учатся после развёртывания

Большинство агентов на базе больших языковых моделей обучаются один раз и дальше работают как есть. Задачи пользователя меняются, рабочие процессы усложняются, а модель стоит на месте. В платформах вроде OpenClaw, где агент обрабатывает задачи из 20+ каналов, статичная модель быстро отстаёт от реальных потребностей.

Группа из UNC-Chapel Hill, Carnegie Mellon, UC Santa Cruz и UC Berkeley предложила MetaClaw — фреймворк непрерывного мета-обучения, который совмещает два механизма: быстрые правила из ошибок и фоновую дообучку весов.

Архитектура MetaClaw: прокси между пользователем и LLM с двумя механизмами обучения
Архитектура MetaClaw: прокси-слой между пользователем и LLM, инъекция навыков и планировщик обучения. Источник: Xia et al., arXiv:2603.17187

Мгновенные правила из провалов

Когда агент проваливает задачу, отдельная языковая модель (evolver) анализирует неудачное взаимодействие и формулирует компактное поведенческое правило. Правило немедленно добавляется в системный промпт агента и применяется ко всем последующим задачам. Сама модель при этом не меняется, сервис не прерывается.

По данным из статьи, из анализа ошибок чаще всего рождаются три типа правил: корректная нормализация форматов времени, создание бэкапов перед деструктивными файловыми операциями и соблюдение соглашений об именовании. Правила не привязаны к конкретной задаче, поэтому одна ошибка может улучшить работу агента в совершенно других сценариях.

Правила хранятся как Markdown-файлы в директории ~/.metaclaw/skills/. Библиотека навыков растёт автоматически с каждым сеансом. В комплекте идёт банк из 40+ готовых навыков для кодинга, безопасности и агентных задач.

Обучение модели в окнах простоя

Второй механизм обновляет веса модели через reinforcement learning с облачной LoRA-дообучкой. Обновление ненадолго прерывает работу агента, поэтому его нельзя запускать, когда пользователь активен.

MetaClaw решает это с помощью планировщика OMLS (Opportunistic Meta-Learning Scheduler), который следит за тремя сигналами:

  • Настроенные часы сна (например, 23:00–07:00)
  • Неактивность клавиатуры и мыши на уровне ОС
  • События в Google Calendar: если пользователь на совещании, открывается окно для обучения
Планировщик OMLS: обучение агента во время совещаний и периодов неактивности
Планировщик OMLS определяет окна простоя через Google Calendar, неактивность ОС и настроенные часы сна. Источник: Xia et al.

Если пользователь вернётся посреди обновления, частичный прогресс сохраняется и продолжается в следующее окно.

Система жёстко разделяет данные до и после изменения правил. В обучение попадают только данные, собранные уже с новыми правилами, иначе модель наказывалась бы за ошибки, которые правила уже исправили.

Kimi-K2.5 догнал GPT-5.2

Исследователи тестировали MetaClaw на собственном бенчмарке из 934 вопросов, распределённых по 44 симулированным рабочим дням. Использовались модели GPT-5.2 и Kimi-K2.5.

МетрикаKimi-K2.5 (без MetaClaw)Kimi-K2.5 + MetaClawGPT-5.2 baseline
Точность21,4%40,6%41,1%
Прирост от правил+32% относительно
Скорость решения1x8,25x
Устойчивость к ошибкам+18,3%

Kimi-K2.5 с MetaClaw практически догнал GPT-5.2 без какого-либо дополнительного обучения на стороне GPT. Слабые модели выигрывают больше: у них больше пробелов в процедурных знаниях, которые библиотека правил заполняет.

Два механизма усиливают друг друга. Улучшенная модель генерирует более информативные ошибки, из которых получаются более точные правила. Те, в свою очередь, дают качественные данные для следующего цикла дообучки.

На отдельном тесте с AutoResearchClaw (автономный пайплайн из 23 шагов: от обзора литературы до готовой статьи) одни только правила без дообучки снизили повторение шагов на 24,8% и количество циклов доработки на 40%.

Техническая архитектура

MetaClaw работает как прозрачный прокси между пользователем и LLM. Локальный GPU не нужен — обучение идёт через облачные сервисы (Tinker, MinT или Weaver) с LoRA. Поддерживает несколько агентных платформ: OpenClaw, CoPaw, IronClaw, NanoClaw и другие.

Три режима работы:

  • skills_only — только инъекция правил, без дообучки. Самый лёгкий, без GPU.
  • rl — правила + непрерывное RL-обучение. Тренировка сразу при заполнении батча.
  • madmax (по умолчанию) — правила + RL + планировщик. Обучение только в окнах простоя.

Установка занимает две команды:

metaclaw setup   # интерактивный мастер настройки
metaclaw start   # запуск в режиме madmax

Версия 0.4.0 (от 25 марта 2026) добавила долгосрочную память: MetaClaw запоминает факты, предпочтения и контекст проектов между сессиями.

Код открыт под лицензией MIT. Статья (arXiv:2603.17187) заняла первое место в HuggingFace Daily Papers 18 марта.

Ограничения

Авторы сами указывают, что бенчмарк — симуляция, а не реальные пользовательские сессии. Цифры нельзя напрямую переносить на продакшн. Обнаружение окон простоя зависит от настроек: если календарь пустой, а мышь не трогать, MetaClaw может не найти подходящего момента для обучения.

MetaClaw пока заточен под текстовые (CLI) задачи агентов. Мультимодальные сценарии — вопрос будущих версий.

Читайте также

Telegram-канал @toolarium