Hyperagents: ИИ, который улучшает сам механизм самосовершенствования

Исследователи из Meta и UBC создали DGM-Hyperagents — ИИ-систему, которая улучшает не только решения задач, но и сам процесс поиска улучшений.

Hyperagents: ИИ, который улучшает сам механизм самосовершенствования

Большинство разговоров об ИИ-агентах вращается вокруг одного вопроса: насколько хорошо агент решает поставленную задачу? Новое исследование учёных из Meta и Университета Британской Колумбии (UBC) задаёт принципиально другой вопрос: а что если сам процесс улучшения агента тоже можно улучшить?

Так появились DGM-Hyperagents — система, в которой один агент-«гипернадзиратель» управляет тем, как именно другие агенты совершенствуются. Это не просто агент, который учится — это агент, который учится учиться лучше.

От агентов к гиперагентам: в чём разница

ИИ-агенты — программы, которые самостоятельно планируют и выполняют задачи: пишут код, ищут информацию, взаимодействуют с инструментами. В рамках парадигмы самосовершенствования (self-improvement) агент анализирует свои ошибки и обновляет стратегию. Звучит мощно — но есть ограничение: алгоритм улучшения остаётся фиксированным.

DGM-Hyperagents меняют эту архитектуру. Вместо одного уровня самосовершенствования здесь два:

  • Базовые агенты — решают конкретные задачи и улучшают свои стратегии.
  • Гиперагент — наблюдает за тем, как базовые агенты совершенствуются, и изменяет сам механизм их улучшения.
Концептуальная схема DGM-Hyperagents: гиперагент управляет механизмом самосовершенствования базовых агентов
Двухуровневая архитектура DGM-Hyperagents: гиперагент оптимизирует не результаты, а алгоритм обучения базовых агентов

Название «DGM» отсылает к концепции Darwin Gödel Machine — теоретической системы, которая доказуемо улучшает собственный код, опираясь на формальные математические критерии. Hyperagents переносят эту идею в практическую плоскость с языковыми моделями.

Как работает механизм метаулучшения

В экспериментах исследователи взяли несколько базовых агентов, каждый из которых работал по стандартной схеме: пробуй → получи обратную связь → обнови подход. Гиперагент получал доступ к полному журналу их попыток — не к финальным результатам, а к динамике обучения: как менялась стратегия агента между итерациями, какие изменения давали прирост, какие нет.

На основе этого анализа гиперагент формулировал новые «мета-инструкции»: не «делай X», а «когда сталкиваешься с Y, меняй свой подход к обучению так». Это эквивалентно тому, как опытный тренер не говорит спортсмену «сделай такое движение», а перестраивает всю методику тренировок.

Ключевые компоненты системы:

  1. Журнал траекторий обучения — гиперагент видит не только итоги, но и путь к ним.
  2. Мета-градиент — оценка того, насколько каждое изменение алгоритма повлияло на скорость улучшения базового агента.
  3. Итеративное обновление — цикл повторяется: гиперагент тоже обновляет свои стратегии на основе наблюдений за несколькими базовыми агентами.

Результаты: что показали эксперименты

Команда тестировала DGM-Hyperagents на задачах программирования и математических бенчмарках. Сравнение велось с базовыми агентами, использующими стандартное самосовершенствование без гиперагента.

Графики результатов DGM-Hyperagents: сравнение скорости улучшения с базовыми агентами
DGM-Hyperagents показывают более быстрый рост качества решений по сравнению с агентами без метаоптимизации

Ключевые находки:

  • Скорость обучения выросла: агенты с гиперагентом достигали целевого уровня качества на 30–40% быстрее.
  • Устойчивость к «плато»: стандартные агенты часто застревали в локальных оптимумах; гиперагент помогал из них выбираться, меняя сам подход к улучшению.
  • Генерализация: улучшенные алгоритмы обучения работали эффективнее и на задачах, которых гиперагент не видел в процессе обучения.

Связь с направлением Autoresearch

DGM-Hyperagents концептуально пересекаются с идеями автоматизированного исследования, которые активно разрабатываются в последние годы. Андрей Карпати в своих экспериментах с Autoresearch провёл более 700 экспериментов, тестируя агентов, способных самостоятельно формулировать и проверять гипотезы. Hyperagents делают следующий шаг: они оптимизируют не гипотезы, а сам алгоритм их генерации и проверки.

Это отражает более широкую тенденцию в ИИ-исследованиях: сдвиг от «обучить модель решать задачи» к «обучить модель улучшать свой способ решения задач». По прогнозам на 2026 год, именно такие мета-архитектуры станут одним из ключевых направлений развития frontier-моделей.

Ограничения и открытые вопросы

Авторы честно обозначают рамки применимости: эксперименты проводились на относительно узких бенчмарках. Вопрос о том, работает ли метаоптимизация при масштабировании на более сложные, многоэтапные задачи реального мира — остаётся открытым.

Кроме того, гиперагент сам по себе является языковой моделью, а значит, на него распространяются все стандартные ограничения LLM: он может «галлюцинировать» качество улучшений или неверно интерпретировать траектории обучения базовых агентов.

Почему это важно

Большинство текущих подходов к улучшению AI-систем предполагают участие человека: исследователи смотрят на результаты, придумывают новые архитектуры и алгоритмы, обновляют системы. DGM-Hyperagents — шаг к тому, чтобы эту роль тоже автоматизировать. Не просто «ИИ, который улучшается», а «ИИ, который улучшает способ своего улучшения».

Это не означает, что мы стоим на пороге рекурсивного самосовершенствования из научной фантастики. Но это серьёзная попытка решить один из реальных bottleneck'ов современных AI-систем: высокую стоимость и медленность итераций при разработке лучших алгоритмов обучения.

Статья доступна на arXiv, код и логи экспериментов авторы планируют опубликовать в ближайшие месяцы.

Telegram-канал @toolarium