AI-агенты

GTA-2 benchmark AI-агентов: где у агентов ломается работа

GTA-2 показывает неприятный разрыв: AI-агенты выбирают инструменты лучше, чем доводят рабочий сценарий до финального результата.

По состоянию на 21 апреля 2026 года разговор про AI-агентов всё чаще звучит так, будто осталось только выбрать модель, дать ей терминал, браузер и пару API. GTA-2, новый бенчмарк для general tool agents, предлагает неприятную проверку реальностью. В режиме GTA-Workflow лучший результат на официальном leaderboard - 14,39% Root SR. То есть даже лидер доводит до конца примерно одну из семи задач.

Это важно не потому, что авторы придумали ещё одну таблицу. Напротив: GTA-2 интересен тем, что он пытается уйти от игрушечных тестов на один вызов инструмента. В нём есть два слоя: GTA-Atomic для коротких задач и GTA-Workflow для длинных сценариев с финальным артефактом, реальными инструментами и мультимодальным контекстом. И именно на втором слое видно, где заканчивается маркетинг про «агенты уже работают».

Факты и цифры ниже проверены 21 апреля 2026 года по arXiv-версии GTA-2, опубликованной 17 апреля 2026 года, и официальному репозиторию open-compass/GTA, где 20 апреля появились paper, dataset и актуальный leaderboard. У этого бенчмарка результаты и состав моделей могут обновляться, поэтому перед закупкой или сравнением стеков сверяйте текущий репозиторий.

GTA-2 измеряет не один вызов инструмента, а рабочий процесс

Авторы называют GTA-2 иерархическим бенчмарком. Нижний слой, GTA-Atomic, наследует исходный GTA и проверяет короткие closed-ended задачи на точность работы с инструментами. Верхний слой, GTA-Workflow, переключается на длинные open-ended сценарии, где агент должен не просто выбрать инструмент, а собрать конечный артефакт: отчёт, файл, документ, таблицу или другой результат.

Разница не косметическая. В официальном README авторы прямо пишут, что GTA-Workflow собран из реальных задач с human-in-the-loop пайплайном. Источники задач - не только внутренние заготовки, но и запросы из агентных продуктов вроде Manus, Kortix, Flowith, Minimax Agent, CrewAI, а также реальные пользовательские потребности с Reddit и Stack Exchange. Для бенчмарка такого типа это важнее громкого бренда модели: синтетический запрос можно натренировать, а длинный рабочий сценарий приходится действительно исполнять.

Параметр	GTA-Atomic	GTA-Workflow
Число задач	229	132
Число инструментов	14	37
Общий объём шагов / подзадач	728 шагов	1156 подзадач
Вложения	Изображения	Изображения, аудио, видео, PDF, CSV, XLSX
Типы итогового результата	Текст, изображение	Текст, изображение, аудио, видео, код, DOCX, PDF, HTML, CSV, PPTX, JSON, Markdown и другие

Отдельно полезно посмотреть на разрез категорий. В GTA-Workflow больше всего задач по data analysis и education & instruction, затем идут planning & decision, creative design, marketing strategy и retrieval & QA. Иными словами, бенчмарк тестирует не «чистый reasoning», а типичную офисную и продуктовую работу, где агент должен собрать итоговый результат из нескольких шагов.

Официальная таблица статистики GTA-2: 229 задач в GTA-Atomic, 132 задачи в GTA-Workflow и более широкий набор вложений и итоговых артефактов. Источник: open-compass/GTA.

Ключевая идея оценки - recursive checkpoint-based evaluation. Авторы раскладывают цель на проверяемые подцели и разделяют fine-grained и coarse-grained успех. По подписи к таблице GTA-Workflow, Leaf SR отражает более детальную, промежуточную успешность, а Root SR - общий успех по задаче целиком. Практически это означает простую вещь: агент может неплохо проходить отдельные checkpoints и всё равно не довозить финальный результат.

Лидерборд показывает разрыв между tool use и финальным результатом

Самая полезная часть GTA-2 - не абстрактный тезис про capability cliff, а цифры. На части GTA-Workflow модели выбирают инструменты заметно лучше, чем заканчивают работу. У лидеров Tool SR около 87-91%, но Root SR остаётся в диапазоне 9-14%. То есть агент часто начинает правильно, но рассыпается на длинной дистанции.

Модель	Tool SR	Leaf SR	Root SR
Gemini 2.5 Pro	91,20%	28,46%	14,39%
GPT-5	87,31%	26,30%	11,36%
Qwen3-235B-A22B	88,98%	26,04%	10,61%
Llama-4-Scout	87,74%	27,51%	10,61%
Claude Sonnet 4.5	88,02%	26,21%	9,09%

У этого разрыва есть важное редакционное следствие. Если смотреть только на инструментальные метрики или на красивые демо, легко решить, что агентный стек уже почти готов к реальной работе. GTA-2 показывает более жёсткую картину: между «умеет пользоваться инструментом» и «доводит задачу до финального артефакта» лежит огромная дистанция. Именно поэтому высокий лидерборд без разбора методики всё ещё опасен. Мы уже писали об этом в материале «Бенчмарки ИИ-агентов ломаются: почему 100% не значит способность», но GTA-2 добавляет другой слой: здесь метрика не сломана, просто сама способность к длинной работе пока заметно слабее обещаний рынка.

Официальный leaderboard GTA-2: таблицы по GTA-Atomic, GTA-Workflow и сравнению harnesses на 30 задачах. Источник: open-compass/GTA.

Ещё одна неприятная деталь видна уже в abstract paper: авторы прямо пишут, что передовые модели и на атомарных задачах остаются ниже 50%. То есть проблема начинается не только на длинных сценариях. Даже короткая end-to-end работа с инструментами остаётся далёкой от надёжного уровня. На части GTA-Workflow это накапливается: каждый следующий шаг добавляет новый шанс ошибиться в планировании, вызвать не тот инструмент, потерять контекст, неверно собрать промежуточные данные или испортить финальный формат результата.

Исполнительные оболочки помогают, но не отменяют слабость базовой модели

Самый интересный кусок GTA-2 для продуктовых команд - не соревнование моделей, а сравнение harnesses. Авторы отдельно считают подмножество из 30 задач GTA-Workflow и показывают, насколько сильно оболочка вокруг модели меняет итог.

Harness	Leaf SR	Root SR	Время	Стоимость
Lagent (Claude Sonnet 4.5)	10,14%	0,0%	50,1 мин	$10
OpenClaw (Claude Sonnet 4.5)	73,55%	50,0%	136,0 мин	$35
Manus (модель не раскрыта)	66,67%	53,3%	138,6 мин	$15
Kortix (модель не раскрыта)	71,74%	53,3%	113,8 мин	$27

Здесь важно не переинтерпретировать цифры. Это не доказательство, что Manus внезапно «решил проблему агентов». Во-первых, сравнение идёт на подмножестве из 30 задач. Во-вторых, для Manus и Kortix авторы не раскрывают модель в этой таблице. Но главный вывод всё равно жёсткий: один и тот же базовый модельный уровень может вести себя радикально по-разному в зависимости от исполнительной оболочки. На том же Claude Sonnet 4.5 Lagent даёт Root SR 0,0%, а OpenClaw - 50,0%.

Для Toolarium это важный мост к инфраструктурной теме. В статье Cloudflare Agent Cloud OpenAI: зачем агентам боевой контур мы уже разбирали, что вокруг модели быстро растёт отдельный слой среды исполнения, состояний, маршрутизации и восстановления. GTA-2 даёт этому количественное подтверждение: хорошая исполнительная оболочка не делает слабую модель сильной, но может резко поднять шанс довести рабочий сценарий до конца.

Почему capability cliff - это продуктовая проблема, а не только академический термин

Capability cliff в GTA-2 выглядит особенно полезным термином, потому что он описывает знакомый продуктовый сбой. Агент уверенно проходит первые шаги, правильно выбирает инструменты, неплохо выглядит в промежуточных логах, а затем проваливает финальную сборку результата. Для команды это худший тип ошибки: демонстрация кажется убедительной, а полезный выход не получается.

Отсюда и главный риск завышенных ожиданий. Если смотреть только на Tool SR или на хорошие промежуточные логи, можно недооценить стоимость последней мили. А именно она чаще всего важна бизнесу: дошёл ли агент до PDF-отчёта, корректного CSV, рабочего документа, чистого куска кода, письма без фактических дыр или презентации, которую не стыдно открыть на встрече.

Это хорошо рифмуется с нашими наблюдениями по длинным инженерным сценариям. В кейсе про libGDX и накопление ошибок ИИ-агентами проблема была не в одном неудачном действии, а в том, что автономная система быстро наращивает серию мелких промахов, которые человек замечает уже слишком поздно. GTA-2 показывает тот же механизм в форме бенчмарка.

Как читать GTA-2 без самообмана

Из GTA-2 стоит вынести не одно число, а набор вопросов к своему стеку:

Смотрите ли вы на Root SR, а не только на метрики уровня инструмента и красивые логи?
Сравниваете ли отдельно базовую модель и исполнительную оболочку, или смешиваете их в одну «умность агента»?
Есть ли у вас собственный workflow-бенчмарк с финальным артефактом, а не только тест на отдельный вызов инструмента?
Понимаете ли вы цену успешного прогона: время, число итераций, стоимость и долю ручного вмешательства?

Если кратко, GTA-2 не доказывает, что AI-агенты бесполезны. Он показывает более неприятную и полезную вещь: рынок пока намного лучше продаёт образ «цифрового сотрудника», чем реально доводит длинные задачи до конца. Лучшие системы уже умеют пройти часть дистанции. Но переход от промежуточных шагов к надёжному финальному результату остаётся узким местом и для моделей, и для harnesses.

Главный вывод

GTA-2, вероятно, станет одной из тех работ, на которые будут ссылаться каждый раз, когда очередной vendor пообещает «универсального агента для работы». И правильно. В апреле 2026 года бенчмарк показывает очень трезвую картину: у frontier-моделей высокая вероятность неплохо начать рабочий сценарий, заметно меньшая вероятность пройти checkpoints и совсем скромный шанс довести задачу до финального результата. Лучший Root SR на полном leaderboard - 14,39%. Даже сильные harnesses на подмножестве задач не превращают это в solved problem.

Для разработчиков и менеджеров вывод простой. Агентов стоит оценивать не по тому, насколько эффектно они начинают, а по тому, насколько часто они заканчивают. И если вы строите свой stack, основной инженерный вопрос теперь звучит не «какая модель самая умная», а «какая связка модели, среды исполнения и checkpoint-оценки реально довозит работу до конца».

GTA-2 benchmark AI-агентов: где у агентов ломается работа

GTA-2 измеряет не один вызов инструмента, а рабочий процесс

Лидерборд показывает разрыв между tool use и финальным результатом

Исполнительные оболочки помогают, но не отменяют слабость базовой модели

Почему capability cliff - это продуктовая проблема, а не только академический термин

Как читать GTA-2 без самообмана

Главный вывод

Читайте также

Похожие статьи

Anthropic запускает AI-агентов для финансовых сервисов

AI-курсор Gemini: зачем DeepMind переосмысливает мышь

CMS ACCESS: Medicare вводит оплату chronic care с ИИ

Риски автономных AI-агентов: почему Claude и OpenClaw пока нельзя пускать к паролям и деньгам