AI-агенты

Model labs становятся agent labs: почему лаборатории ИИ продают уже не только модели

Лабораториям ИИ уже мало продавать модель через API. Разбираем сдвиг к агентам, харнесам, памяти, песочницам и экономике инференса.

По состоянию на 27 мая 2026 года фраза `model labs agent labs` хорошо описывает сдвиг, который уже виден в продуктах OpenAI, AI21 и вокруг DeepSeek. Лабораториям ИИ всё ещё нужны сильные модели. Но продавать только модель через API становится мало: клиент всё чаще покупает агентный контур, где есть модель, харнес, инструменты, память, песочница, интерфейс, права доступа и понятная экономика инференса.

Поводом стал выпуск Latent Space / AINews от 23 мая. Там тезис сформулирован жёстко: model labs всё больше становятся agent labs, а отдельная модель перестаёт быть единственным продуктом. API не исчезают, бенчмарки тоже остаются полезными. Просто рынок всё чаще проверяет другое: умеет ли модель стабильно делать работу в реальной среде, а не только хорошо отвечать в изолированном чате.

AI21 Developer Platform уже ставит Maestro рядом с базовыми моделями: агентный слой становится частью продуктового предложения. Источник: AI21.

Что вообще значит agent labs

Model lab в привычном смысле строит модель, публикует характеристики, продаёт доступ через API, иногда отдаёт веса или открывает чат-продукт. Agent lab идёт выше по стеку. Она отвечает не только за «мозг», но и за то, как этот мозг действует: видит файлы, вызывает инструменты, помнит контекст, запускает команды, просит подтверждение, откатывается после ошибки и оставляет следы для аудита.

Здесь появляется термин «харнес». По-русски ближе всего «обвязка исполнения»: всё, что оборачивает модель и превращает её в рабочий агент. В coding agents это поиск по репозиторию, чтение файлов, патчи, терминал, тесты, браузер, разрешения, журнал действий и механизм восстановления после неудачного шага. В корпоративных агентах это подключение к документам, базам знаний, CRM, почте, тикетам, политике доступа и внутренним проверкам.

Раньше модель была главным объектом продажи. Теперь продуктовая ценность всё чаще живёт в связке: модель плюс рабочая среда. Поэтому соседний материал Toolarium про ставку OpenAI на enterprise AI важен не только как новость про продажи крупным компаниям. Он показывает, почему лаборатории поднимаются от API к управляемым агентным сценариям: бизнесу нужен не ответ модели, а воспроизводимая работа с правами, логами и ответственностью.

Почему одной модели уже мало

Бенчмарк хорошо показывает срез способности. Агентный продукт проверяется иначе: он должен пройти длинную цепочку действий и не развалиться на третьем шаге. Например, coding agent должен понять задачу, найти нужные файлы, изменить код, запустить тесты, прочитать ошибку, исправить её и объяснить diff. На каждом этапе слабым местом может оказаться не сама модель, а среда вокруг неё.

У этой среды много скучных, но решающих деталей. Где хранить контекст между сессиями? Как не дать агенту прочитать лишние секреты? Когда просить подтверждение у человека? Какие команды разрешены без остановки? Как понять, что агент не просто «что-то сделал», а действительно закрыл задачу? Именно поэтому оркестрация AI-агентов всё больше похожа на отдельный инфраструктурный слой, а не на красивую надстройку над чат-ботом.

Практический пример хорошо виден в материале Tproger по статье Thoughtworks о сенсорах поддерживаемости для агентов кодирования. Там речь не о новой модели, а о проверках вокруг агента: ESLint, dependency-cruiser, Semgrep, тесты, GitLeaks, мутационное тестирование и инференциальные ревью. То есть качество агентной работы держится не на одном ответе LLM, а на контуре обратной связи.

Codex показывает направление OpenAI

Самый наглядный публичный пример сейчас даёт Codex. В апрельском анонсе OpenAI описывает Codex уже не как помощника, который просто пишет код, а как продукт, работающий по всему циклу разработки: компьютерное управление, браузер внутри приложения, удалённые devbox по SSH, терминалы, ревью pull request, память, автоматизации и плагины. В мае компания добавила мобильный контур: Codex можно контролировать из ChatGPT на телефоне, пока он работает на ноутбуке, devbox или удалённой среде.

В том же майском анонсе OpenAI пишет, что Codex используют больше 4 млн человек в неделю. Эта цифра важна не сама по себе, а как маркер масштаба: продукт уже требует не только модели, но и управления активными сессиями, разрешениями, выводом терминала, скриншотами, результатами тестов и подтверждениями в реальном времени.

Отдельно OpenAI опубликовала материал о безопасном запуске Codex внутри самой компании. Там перечислены песочницы, сетевые политики, правила команд, корпоративная аутентификация, логи OpenTelemetry и compliance-логи. Это почти учебник по тому, как model lab превращается в agent lab: ценность уходит в контролируемую среду исполнения. Мы уже видели похожий мотив в разборе OpenAI Symphony и управления Codex-агентами: доска задач и рабочий процесс становятся частью продукта, а не внешним менеджментом вокруг него.

AI21 и DeepSeek: разные сигналы одного сдвига

С AI21 нужно быть аккуратным. В открытых источниках есть медийные сообщения о резком развороте к агентам, но официальный сайт компании формулирует проверяемый факт мягче: AI21 продаёт не только модели Jamba, но и Maestro, систему для создания knowledge agents. В документации Maestro описан как агентный слой для поиска, рассуждения, проверки и адаптации в реальном времени с учётом стоимости и задержки.

Это уже достаточно сильный сигнал. Даже если не использовать неподтверждённые кадровые детали, продуктовая рамка изменилась: AI21 говорит не только языком базовых моделей, но и языком рабочих агентных сценариев для предприятий. На странице Inside The Lab компания отдельно пишет про оптимизацию агентов для BrowseComp-Plus и deep research, а в cookbooks предлагает строить производственные AI-агенты на Maestro.

DeepSeek пока ещё более ранний случай. На главной странице компания продвигает DeepSeek-V4 Preview как модель с более сильными агентными возможностями. The Decoder 20 мая сообщил, что DeepSeek формирует в Пекине Harness team для собственного coding agent, а публичные вакансии связаны с продуктовой и инженерной ролью вокруг харнеса. Это не запущенный продукт: у DeepSeek нет официального релизного названия, даты запуска или цены для такого агента. Но сам сигнал найма укладывается в общий тезис: сильная модель без собственного контура исполнения отдаёт слишком много ценности чужому интерфейсу.

MCP, память и песочницы становятся инфраструктурой

Если лаборатория строит agent lab, ей нужна не только модель и красивый интерфейс. Ей нужен способ подключать инструменты, передавать контекст, управлять долгими задачами и масштабировать всё это на обычной инфраструктуре. Поэтому релиз-кандидат MCP `2026-07-28`, опубликованный 21 мая, попал в тот же новостной узел.

Релиз-кандидат MCP 2026-07-28 переводит протокол к stateless core, Tasks, MCP Apps и более строгой авторизации. Источник: Model Context Protocol Blog.

Главное изменение MCP RC: протокол становится stateless на уровне ядра. Уходит обязательная сессия с `Mcp-Session-Id`, запросы несут нужные сведения в себе, а серверы легче ставить за обычный балансировщик. Для агентных продуктов это не косметика. Если агент вызывает десятки инструментов, работает в разных окружениях и живёт дольше одного HTTP-запроса, инфраструктура должна выдерживать горизонтальное масштабирование, трассировку, кэширование и долгие задачи.

MCP Apps и Tasks тоже важны именно в контексте agent labs. Apps дают серверу способ вернуть интерфейс, а Tasks выносят долгую работу в отдельный жизненный цикл. Это шаг от «модель вызывает функцию» к «агент работает в системе, где есть состояние задачи, пользовательское вмешательство и наблюдаемость».

Экономика тоже переезжает в харнес

У агентного продукта другая арифметика. Обычный чат может ответить за один-два запроса. Агентная задача легко превращается в десятки вызовов: прочитать контекст, распланировать, вызвать инструменты, перепроверить, исправить, снова проверить. Поэтому стоимость инференса, длина контекста, кэширование, выбор модели на каждом шаге и ранняя остановка становятся частью продукта.

Отсюда неприятный вывод для поставщиков моделей: дешёвая или сильная модель сама по себе не гарантирует хороший агентный опыт. Если харнес плохо держит память, не умеет восстанавливаться после ошибки, не различает опасные действия и не даёт нормальных логов, пользователь обвинит продукт целиком. И наоборот: сильная обвязка может вытянуть модель в рабочих сценариях, где голый API выглядел бы средне.

Есть и риск закрытия. Latent Space справедливо замечает: если модель дообучается и оценивается вместе с закрытым харнесом, поставщик получает стимул вести пользователей в свой агентный продукт, а не в нейтральный API. Для разработчиков это означает новую форму зависимости: вы привыкаете не только к модели, но и к её памяти, форматам задач, разрешениям, трассам, плагинам и интерфейсу ревью.

Что это значит для разработчиков и компаний

Выбирать AI-платформу по одной таблице бенчмарков становится опасно. Для прототипа ещё можно спросить: какая модель лучше отвечает? Для внедрения агента нужны другие вопросы:

какие инструменты агент может вызывать и как ограничены его права;
где работает код: локально, в управляемой песочнице, на devbox или в облаке поставщика;
как устроены паузы на подтверждение для рискованных действий;
что попадает в логи и можно ли восстановить ход рассуждений по событиям;
как агент хранит память и можно ли её переносить;
есть ли проверяемый критерий завершения задачи, а не только красивый финальный ответ;
сколько стоит не один запрос, а полный рабочий цикл.

Для разработчиков это хорошая новость и плохая одновременно. Хорошая: рынок наконец признаёт, что агенту нужна инженерия вокруг модели. Плохая: сравнивать продукты стало сложнее. «Какая модель умнее?» уже не главный вопрос. Важнее, кто лучше соединяет модель с реальным рабочим процессом и даёт команде контроль.

Главное

Model labs становятся agent labs не потому, что модели перестали иметь значение. Наоборот: сильная модель остаётся входным билетом. Но рынок смещает ценность выше: к харнесу, памяти, инструментам, песочницам, интерфейсу, безопасности, логам и стоимости полного цикла работы.

OpenAI показывает это через Codex, AI21 — через Maestro и knowledge agents, DeepSeek — через интерес к собственному harness-слою, MCP — через инфраструктуру для масштабируемых агентных интеграций. В 2026 году лаборатория ИИ конкурирует уже не только тем, насколько хороша её модель. Она конкурирует тем, насколько надёжно эта модель умеет работать.

Источники и проверка фактов

Latent Space / AINews: All Model Labs are now Agent Labs, опубликовано 23 мая 2026 года, проверено 27 мая 2026 года.
OpenAI: Codex for (almost) everything, опубликовано 16 апреля 2026 года, проверено 27 мая 2026 года.
OpenAI: Work with Codex from anywhere, опубликовано 14 мая 2026 года, проверено 27 мая 2026 года.
OpenAI: Running Codex safely at OpenAI, опубликовано 8 мая 2026 года, проверено 27 мая 2026 года.
AI21 Developer Platform: Overview, проверено 27 мая 2026 года.
AI21: Inside The Lab, проверено 27 мая 2026 года.
The Decoder: Deepseek wants to take on Claude Code and OpenAI's Codex with "Deepseek Code", опубликовано 20 мая 2026 года, проверено 27 мая 2026 года.
DeepSeek: homepage, проверено 27 мая 2026 года.
Model Context Protocol Blog: The 2026-07-28 MCP Specification Release Candidate, опубликовано 21 мая 2026 года, проверено 27 мая 2026 года.
Tproger: Сенсоры поддерживаемости для агентов кодирования, опубликовано 22 мая 2026 года, проверено 27 мая 2026 года.

Model labs становятся agent labs: почему лаборатории ИИ продают уже не только модели

Что вообще значит agent labs

Почему одной модели уже мало

Codex показывает направление OpenAI

AI21 и DeepSeek: разные сигналы одного сдвига

MCP, память и песочницы становятся инфраструктурой

Экономика тоже переезжает в харнес

Что это значит для разработчиков и компаний

Главное

Читайте также

Источники и проверка фактов

Похожие статьи

AI-агенты атакуют AI-агентов: защитники используют prompt injection против hacking agents

Stack Overflow for Agents спустя месяц: зачем агентам свой Stack Overflow

Long-Horizon-Terminal-Bench: почему AI-агенты теряют нить в долгих terminal-задачах

Ghostcommit: prompt injection через PNG и AGENTS.md