AI-агенты

Lean4Agent: как Lean 4 проверяет workflow AI-агентов

Lean4Agent переносит формальную проверку Lean 4 на workflow AI-агентов. Что проверяет FormalAgentLib, зачем нужен LeanEvolve и где границы результата.

Проверено 8 июня 2026 года. Lean4Agent — это исследовательский фреймворк для формального описания, проверки и отладки workflow AI-агентов на Lean 4. Авторы предлагают проверять сам рабочий сценарий агента, а не только финальный ответ модели: какие шаги он проходит, какие условия должны выполняться до и после шага, где ломается траектория выполнения.

Для рынка агентного ИИ это интересный сдвиг. Обычно качество агента меряют тестами, логами и повторными прогонами. Lean4Agent добавляет другой слой: часть поведения можно выразить как формальную спецификацию и проверить до запуска или после неудачной траектории. Это не делает агента безопасным автоматически, но даёт более строгий язык для разговора о сбоях.

Lean4Agent опубликован на arXiv 2 июня 2026 года. Источник: arXiv.

Что именно предлагает Lean4Agent

В статье Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory авторы описывают два основных блока: FormalAgentLib и LeanEvolve. Первый блок моделирует workflow и траекторию выполнения в Lean 4. Второй использует результаты проверки, чтобы предложить правки рабочего сценария.

Lean 4 здесь нужен не для украшения новости математическим термином. Это функциональный язык и интерактивный доказатель теорем; официальный учебный сайт Lean 4 описывает его как язык для программирования и проверки утверждений. В Lean4Agent эту строгость пытаются перенести на AI-агентов: у шага появляются явные предусловия, постусловия и связь с соседними шагами.

Схема Lean4Agent: FormalAgentLib проверяет структуру, семантику и траекторию выполнения, а LeanEvolve использует диагностику для правки workflow. Источник: arXiv.

Три слоя проверки вместо одного теста

FormalAgentLib разделяет проверку на три уровня. Сначала она смотрит на структуру workflow: типы, граф выполнения, связность переходов. Затем проверяет семантику шагов через систему предикатов: что должно быть истинно до шага и что должно стать истинным после него. Последний слой разбирает уже полученную траекторию выполнения и помогает локализовать шаг, который привёл к сбою.

Это ближе к инженерной отладке, чем к магическому «докажем, что агент всегда прав». Если агент должен сначала собрать контекст, затем исправить код, затем проверить тесты, спецификация может поймать странную связку: например, шаг проверки говорит «исправление подтверждено», хотя нужные тесты не запускались или их результат не попал в состояние workflow.

Подход	Что проверяет	Где слабое место
Обычные тесты	Финальный результат на выбранных задачах	Не объясняют, где именно агент свернул не туда
Runtime-защита	Запрещённые действия, политики, ограничения инструментов во время выполнения	Часто срабатывает уже после попытки действия
Lean4Agent	Структуру workflow, предусловия, постусловия и траекторию выполнения	Требует формализации и не видит всю внутреннюю логику чёрного ящика LLM

Что показали эксперименты

Авторы проверяли Lean4Agent на сложном поднаборе SWE-Bench-Verified и части ELAIP-Bench. SWE-Bench Verified — это проверенный людьми набор из 500 задач для оценки coding-агентов и языковых моделей; в Lean4Agent использовали поднабор сложных задач, чтобы сократить стоимость экспериментов. ELAIP-Bench в статье описан как набор вопросов по свежим AI-статьям; авторы случайно выбрали 100 задач.

Главная цифра из аннотации звучит так: workflow, прошедшие проверку, в среднем опередили workflow, которые её не прошли, на 11,94 процентного пункта. В деталях статьи это складывается из 14,80 п.п. на SWE-Bench-Verified и 9,07 п.п. на ELAIP-Bench. LeanEvolve, по данным авторов, добавил ещё 7,47 п.п. решённых задач на SWE и поднял точность сложного поднабора с 56,93% до 64,40%.

Таблицы результатов из статьи: workflow, прошедшие проверку, показывают преимущество на выбранных поднаборах, а LeanEvolve даёт дополнительный прирост на SWE-задачах. Источник: arXiv.

Эти проценты нельзя читать как независимое доказательство готовности к промышленному применению. Это заявленные авторами результаты на выбранных поднаборах, с конкретной схемой генерации workflow и конкретными допущениями. Сильная часть результата — проверяемая гипотеза: более самосогласованный workflow чаще даёт лучший результат.

Чем это отличается от AlphaProof и LeanAgent

Здесь легко перепутать несколько соседних тем. AlphaProof Nexus и похожие системы про Lean чаще обсуждают автоматический поиск математических доказательств. LeanAgent из экосистемы LeanDojo тоже относится к формальному theorem proving: агент учится решать теоремы и работать с математическими репозиториями.

Lean4Agent работает с другим объектом. Он не пытается доказать олимпиадную теорему и не заменяет математического prover-агента. Его цель — формально описать и проверить поведение AI-агента как workflow: шаги, переходы, условия, траектории и места сбоя. Поэтому статья держит угол «Lean 4 как язык для спецификации агентных процессов», а не общий сюжет про ИИ-доказательства в Lean.

Где это может пригодиться разработчикам

Практический интерес Lean4Agent начинается там, где агент перестаёт быть одноразовой командой в чате и становится повторяемым процессом. Агент для кода, исследовательский агент, агент поддержки или внутренний аналитический агент часто работает по схеме: собрать данные, выбрать инструмент, выполнить действие, проверить результат, при ошибке вернуться назад. Именно такие схемы удобно описывать как workflow.

Для команд, которые уже думают о безопасности агентских систем, формальная спецификация может стать дополнительным слоем контроля. Она не заменяет sandbox, права доступа, журналирование и лимиты инструментов. Зато помогает заранее увидеть, что в сценарии нет обязательной проверки, что шаг читает переменную, которую никто не создаёт, или что ветка ошибки возвращает агента в невалидное состояние.

Особенно полезной выглядит связка с отладкой. Если после запуска агент провалил задачу, обычный лог часто превращается в длинную историю мыслей, команд и промежуточных файлов. Lean4Agent пытается свести такой провал к более строгому диагнозу: какой шаг нарушил предикат, какая часть контекста не была передана, какой переход в workflow оказался неверным.

Где границы результата

Самое важное ограничение: формальная проверка workflow не равна проверке всей LLM. Авторы явно работают с допущениями о локальном поведении LLM-шагов. Если модель внутри шага неверно поняла задачу, скрыла ошибку, неправильно вызвала инструмент или получила мусорный внешний ответ, формальная оболочка увидит только то, что было выражено в спецификации и траектории.

Вторая граница — стоимость формализации. Чтобы проверять workflow, его надо описать достаточно строго. Для одноразовой задачи это может быть лишней работой. Для повторяемого агента, который трогает код, деньги, инфраструктуру или чувствительные данные, затраты уже выглядят разумнее.

Третья граница — переносимость. Эксперименты идут на выбранных поднаборах SWE-Bench-Verified и ELAIP-Bench. До промышленного стандарта здесь далеко: нужны независимые репликации, больше доменов, больше открытого кода и проверка на реальных агентных платформах, где workflow живёт вместе с правами доступа, сетевыми ошибками и человеческими подтверждениями.

Главное

Lean4Agent стоит читать как работу про спецификацию, а не как очередной бенчмарк coding-агентов. Его сильная идея: workflow AI-агента можно сделать объектом формальной проверки, а не только набором промптов и надежд на хороший лог. Это особенно важно для долгих агентных процессов, где ошибка часто возникает в связке шагов.

Пока это исследовательский результат, а не готовый промышленный стандарт. Но направление выглядит зрелым: чем больше автономности получают агенты, тем меньше хватает обычного «запустили тесты и посмотрели логи». Разработчикам нужен язык, на котором можно описать, что агенту вообще разрешено считать корректным workflow. Lean4Agent показывает один из вариантов такого языка.

Источники и проверка фактов

arXiv: Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory, submitted 2 Jun 2026, проверено 8 июня 2026 года.
Lean 4: Learn Functional Programming & Theorem Proving, проверено 8 июня 2026 года.
SWE-Bench Verified, проверено 8 июня 2026 года.
arXiv: Agentproof: Static Verification of Agent Workflow Graphs, соседний подход к static verification workflow-графов, проверено 8 июня 2026 года.

Lean4Agent: как Lean 4 проверяет workflow AI-агентов

Что именно предлагает Lean4Agent

Три слоя проверки вместо одного теста

Что показали эксперименты

Чем это отличается от AlphaProof и LeanAgent

Где это может пригодиться разработчикам

Где границы результата

Главное

Читайте также

Источники и проверка фактов

Похожие статьи

Xiaomi-Robotics-1: как 100 тысяч часов данных меняют обучение роботов

Безопасность long-horizon ИИ-моделей OpenAI: два инцидента

NVIDIA Cosmos 3 Edge: локальная модель мира для роботов

Стратегия ИИ ВМС США: как работает цикл Bits2Effects