CUGA Apps от IBM: новый стек agentic apps

CUGA Apps показывает, как IBM собирает agentic apps из FastAPI-примеров, MCP/OpenAPI-инструментов, planning, reflection и политик runtime.

Официальная обложка Hugging Face и IBM Research для CUGA Apps

По состоянию на 23 июня 2026 года IBM Research и Hugging Face опубликовали CUGA Apps: набор рабочих примеров для сборки agentic apps на базе CUGA. В SEO-ключе это звучит сухо: CUGA IBM agentic apps. По смыслу история шире. IBM показывает слой, который берёт на себя скучную, но дорогую часть агентного приложения: планирование, цикл выполнения, вызовы инструментов, состояние и политики.

CUGA расшифровывается как Configurable Generalist Agent. В блоге Hugging Face авторы называют его open-source agent harness от IBM: разработчик задаёт модель, список инструментов и инструкции, а CUGA ведёт план, выполняет шаги, хранит промежуточное состояние и может перепланировать задачу после неудачного вызова. Поэтому материал стоит читать как сигнал о зрелении стека агентных приложений, а не как релиз ещё одного фреймворка.

Мы уже разбирали, почему оркестрация AI-агентов начинает напоминать новый LAMP, и отдельно объясняли, как MCP связывает модели с инструментами. CUGA попадает между этими темами: он не заменяет MCP и не обещает универсальную платформу для всего рынка, зато показывает, как собрать инструменты, системную инструкцию, состояние и runtime-контроль в один читаемый контур.

Схема IBM Research с устройством CUGA-приложения ibm_cloud_advisor
IBM Research показывает CUGA-приложение как один FastAPI-файл с inline-инструментом, MCP-инструментом и системной инструкцией. Источник: Hugging Face / IBM Research, 23 июня 2026 года.

Что именно выпустили IBM и Hugging Face

В релизе речь о двух связанных проектах. Первый — сам cuga-agent, open-source harness под Apache 2.0. Второй — cuga-apps, библиотека примеров, где агент обёрнут в FastAPI-приложение. В блоге Hugging Face говорится о двух десятках рабочих однофайловых приложений; README репозитория на момент проверки описывает 35 приложений, из них 21 входит в витринный набор.

Примеры не выглядят как игрушечный чат с одной функцией. В каталоге есть исследовательские сценарии с arXiv и Semantic Scholar, городские и туристические помощники, RAG поверх документов и медиа, мониторинг серверов, финансовые уведомления, IBM Cloud Advisor, IBM Docs Q&A и multi-agent пример Ouroboros с supervisor и семью специалистами. Это полезнее обычного демо: разработчик может взять ближайший шаблон и заменить инструменты с инструкциями, вместо того чтобы собирать обвязку с нуля.

Короткая схема такая: CUGA — это исполнительная обвязка для агентного приложения, а не ещё один «умный prompt». Приложение остаётся обычным Python/FastAPI-кодом, но агентная часть получает общий цикл выполнения и правила работы с инструментами.

Что берёт на себя CUGA Что остаётся разработчику
Планирование задачи, цикл выполнения, reflection и хранение промежуточного состояния. Выбрать модель и режим рассуждения под стоимость, задержку и качество.
Единый способ подключать OpenAPI, MCP и LangChain-инструменты. Описать доменные инструменты, которые действительно нужны приложению.
Политики: intent guard, tool approval, tool guide, playbook и output formatter. Решить, какие действия требуют запрета, подсказки или human-in-the-loop.
Переход от одного агента к supervisor-схеме и специализированным агентам. Разделить задачу на роли и не перегружать одного агента всеми инструментами сразу.

Зачем IBM называет это harness

Слово harness здесь уместнее, чем «фреймворк». Фреймворк обычно диктует архитектуру приложения. Harness ближе к исполнительному контуру: он держит модель, инструменты, состояние, политику и цикл шагов в рабочем положении, но не заставляет переписывать всю веб-часть.

В примере IBM Cloud Advisor агент создаётся четырьмя аргументами: модель, список инструментов, системная инструкция и папка `.cuga` для состояния и политик. Инструменты можно смешивать: один inline-инструмент ходит в IBM Cloud Global Catalog, другой приходит из MCP-сервера web. Системная инструкция задаёт порядок: сначала проверить каталог, потом рекомендовать сервисы. Для агентного приложения это должна быть не маска персонажа, а процедура, которую можно проверить.

В статье IBM отдельно подчёркивает конвенцию для инструментов: успешный вызов возвращает небольшой envelope с `ok: true`, ошибка — envelope с кодом и текстом. Это выглядит мелочью, пока агент не столкнётся с реальным API. Сырой stack trace ломает план. Понятная ошибка даёт CUGA шанс пропустить шаг, перепланировать задачу или объяснить пользователю ограничение.

Где тут MCP, OpenAPI и LangChain

CUGA не пытается сделать собственный стандарт интеграции вместо MCP. Судя по примерам, ставка другая: все типы инструментов должны подключаться к агенту одинаково. Общие возможности, например web search, knowledge, geo или finance, удобно держать в MCP-серверах. Доменные действия, которые есть только у конкретного приложения, проще описать inline-функцией. OpenAPI закрывает сценарии, где уже есть формальный контракт сервиса.

Такой подход снижает главную боль agentic apps: у каждого проекта быстро появляется смесь инструментов разного происхождения. Один — локальная функция. Второй — внешний API. Третий — MCP-сервер. Четвёртый — LangChain tool из уже существующего кода. Если каждый вид требует отдельного способа планирования и обработки ошибок, приложение расползается раньше, чем начинает приносить пользу.

Здесь CUGA работает как сборочный слой: инструменты остаются своими, но агент видит их в одной форме внутри planner/executor цикла. Для команд, которые уже пробовали строить агентов вокруг набора внутренних API, это практичнее громкого обещания «автономности».

Контроль встроен в ранний слой

Самая интересная часть релиза — место, где IBM размещает контроль. Политики живут рядом с агентом, а не добавляются отдельной проверкой после готового демо. В блоге перечислены Intent Guard, Tool Approval, Tool Guide, Playbook, Output Formatter и CustomPolicy. Tool Approval, например, может остановить выполнение перед рискованным инструментом и дождаться человека.

Для боевых сценариев это принципиально. Агент, который только ищет фильмы или собирает городскую сводку, может ошибиться без тяжёлых последствий. Агент с доступом к shell, файлам, CRM, биллингу или production API уже требует sandbox, журнал действий, права на уровне инструментов и точки подтверждения. Похожую логику мы разбирали в материале про Cloudflare Agent Cloud и боевой контур для агентов: агентная система становится инфраструктурой только тогда, когда у неё есть среда исполнения и контроль действий.

IBM идёт в ту же сторону. В статье CUGA связывают с IBM Sovereign Core и Boundary Isolation: данные, control plane и execution engine остаются внутри одного логического контура, агенты запускаются в изолированных контейнерах, а трассировка уходит в tenant-owned Grafana Tempo. Это заявление вендора, а не независимый аудит, поэтому его лучше читать как направление продукта: корпоративные агенты будут продаваться не только качеством модели, но и проверяемостью runtime.

Официальный логотип CUGA Configurable Generalist Agent из репозитория cuga-agent
Официальный графический файл CUGA из репозитория cuga-agent. Проект опубликован как open-source harness под Apache 2.0. Источник: GitHub / cuga-project.

Что не стоит преувеличивать

CUGA не нужно подавать как замену LangChain, LangGraph, CrewAI или всем агентным фреймворкам сразу. В доступных источниках такого утверждения нет. Авторы говорят о harness и наборе приложений, которые можно читать и копировать. Это сильная, но более узкая заявка.

Осторожнее и с бенчмарками. В README и блоге CUGA заявляет первые места на AppWorld и WebArena в конкретных временных окнах: с июля 2025 по февраль 2026 года для AppWorld и с февраля по сентябрь 2025 года для WebArena. Это не означает, что CUGA «лучший агент на рынке» сегодня. Корректный вывод скромнее: вендор показывает, что planner/executor, reflection и работа с состоянием дают измеримый эффект на веб- и API-задачах, но реальное приложение всё равно надо тестировать на своих данных, правах доступа и отказах инструментов.

Наконец, не каждая команда выиграет от такого слоя сразу. Если задача — один чат с одной функцией, CUGA может быть избыточен. Выигрыш появляется там, где есть несколько инструментов, долгие цепочки действий, ошибки API, RAG, browser/API-гибрид, human approval или переход от одного агента к группе специалистов.

Почему это важно для разработчиков

Рынок агентных приложений уходит от вопроса «какая модель умнее» к вопросу «как приложение переживает двадцатый шаг». На длинной задаче ломаются не только reasoning и контекст. Ломаются tool schema, состояние, повторное использование результатов, права доступа, формат ошибок, логи и UX подтверждений.

CUGA интересен тем, что переводит эти проблемы в обычную инженерную плоскость. Нужен инструмент — добавьте функцию или MCP-сервер. Нужна граница — добавьте policy. Нужен multi-agent сценарий — вынесите роль в специализированного агента. Нужен другой провайдер модели — меняется конфигурация, а не весь код приложения. Это не снимает архитектурную работу, но делает её видимой.

Для русскоязычных команд практический вывод простой: оценивая agentic apps, смотрите не только на красивый чат. Проверяйте, как агент хранит состояние, как сообщает об ошибках инструментов, где включается human-in-the-loop, можно ли поменять модель, где живут политики и как приложение ведёт себя, когда внешний API вернул мусор. Именно эти детали чаще решают судьбу пилота.

Главное

CUGA Apps от IBM Research и Hugging Face показывает, как агентное приложение можно собрать из более понятных частей: FastAPI-обвязка, `CugaAgent`, список инструментов, системная инструкция, состояние и policies. Ценность релиза в библиотеке рабочих примеров и в попытке встроить контроль в ранний runtime-слой.

Если этот подход приживётся, следующий этап agentic apps будет меньше похож на набор хрупких демо и больше на обычную разработку: инструменты подключаются через контракты, ошибки имеют формат, политики лежат рядом с кодом, а автономность ограничена там, где начинается риск.

Читайте также

Источники и проверка фактов

  • Hugging Face / IBM Research: Build real agentic apps using CUGA, опубликовано 23 июня 2026 года, использовано для даты релиза, описания CUGA Apps, примера IBM Cloud Advisor, policy runtime, MCP/OpenAPI/LangChain-инструментов и заявлений о боевом контуре, проверено 23 июня 2026 года.
  • GitHub: cuga-project/cuga-agent, использовано для проверки описания CUGA как open-source generalist agent harness, capabilities, policy features, roadmap и последнего релиза репозитория, проверено 23 июня 2026 года.
  • CUGA LICENSE, использовано для проверки Apache License 2.0, проверено 23 июня 2026 года.
  • GitHub: cuga-project/cuga-apps, использовано для проверки количества приложений, витринного набора, FastAPI-структуры, каталогов сценариев и Quick Start, проверено 23 июня 2026 года.
Telegram-канал @toolarium