ИИ-агенты в браузере: Computer Use и Operator

Anthropic Computer Use и OpenAI Operator — ИИ-агенты, которые управляют браузером и приложениями. Разбираем технологию.

ИИ-агенты в браузере: Computer Use и Operator

ИИ-агенты научились управлять компьютером. Anthropic запустила Computer Use — возможность Claude взаимодействовать с десктопом через скриншоты и виртуальные клики. OpenAI ответила Operator — автономным агентом для выполнения задач в браузере. Оба продукта решают одну задачу: превратить текстовую инструкцию в последовательность действий на экране.

Anthropic Computer Use

Computer Use — функция API Claude, при которой модель получает скриншот экрана и может выполнять действия: кликать, печатать текст, скроллить, нажимать клавиши. Цикл работы: скриншот → анализ → действие → новый скриншот → следующее действие.

Техническая реализация: разработчик предоставляет Claude доступ к инструментам computer, text_editor и bash. Claude анализирует скриншот, определяет координаты элементов интерфейса и вызывает нужный инструмент. Пример: «Открой Gmail и ответь на последнее письмо» → Claude находит иконку браузера, кликает, вводит URL, находит письмо, нажимает Reply, печатает ответ.

Точность: на тестах OSWorld (реальные задачи на десктопе) Claude с Computer Use показал 22% — значительно выше предыдущих подходов (15%), но далеко от человеческого уровня. Ошибки: неточные клики, неправильная интерпретация мелкого текста, зацикливание на повторяющихся действиях.

OpenAI Operator

Operator — отдельный продукт OpenAI, доступный подписчикам ChatGPT Pro ($200/мес). В отличие от Computer Use, Operator работает только в браузере (не на десктопе) и имеет собственный интерфейс с изолированным браузерным окном.

Пользователь описывает задачу на естественном языке: «Забронируй столик в ресторане X на двоих в пятницу в 19:00». Operator открывает сайт ресторана, находит форму бронирования, заполняет данные и отправляет. Перед действиями, связанными с оплатой или отправкой данных, Operator запрашивает подтверждение.

Практические сценарии

Автоматизация рутины. Заполнение форм, бронирования, заказы — всё, что требует монотонного кликанья по веб-интерфейсам. Для бизнеса — обработка данных в CRM, перенос информации между системами.

Тестирование. ИИ-агент как QA-тестировщик: пройти пользовательский сценарий, проверить работоспособность интерфейса, зафиксировать баги.

Скрапинг и мониторинг. Сбор данных с сайтов, которые не имеют API. Мониторинг цен, наличия товаров, обновлений.

Ограничения

Скорость: агент работает в 10–50 раз медленнее человека. Каждое действие требует скриншота, анализа и генерации — 2–5 секунд на шаг. Задача из 20 шагов занимает 1–2 минуты.

Надёжность: на сложных интерфейсах (CAPTCHA, нестандартные элементы, всплывающие окна) агенты часто ошибаются. Для критичных задач необходим human-in-the-loop — человек подтверждает ключевые действия.

Безопасность: агент, управляющий браузером, потенциально может выполнить вредоносные действия — кликнуть по фишинговой ссылке, отправить данные не туда. Оба провайдера ограничивают действия подтверждениями, но риск остаётся. Подробнее о безопасности ИИ.

Что дальше

Агенты в браузере — ранняя стадия новой парадигмы. Через 2–3 года точность вырастет с 22% до 80%+, скорость ускорится за счёт оптимизации, а стоимость снизится с появлением специализированных моделей. Уже сейчас стоит экспериментировать: автоматизировать рутинные задачи, где ошибка не критична, и наращивать сложность по мере улучшения технологии.

Как работают ИИ-агенты в браузере

Браузерные агенты видят экран так же, как человек — через скриншоты или DOM-дерево — и выполняют действия: клики, ввод текста, скролл. Основные подходы:

  • Vision-based — агент получает скриншот страницы, анализирует его мультимодальной моделью и принимает решения. Работает с любым интерфейсом, но медленнее.
  • DOM-based — агент читает HTML-структуру страницы и взаимодействует с элементами по CSS-селекторам. Быстрее и точнее, но требует доступа к DOM.
  • Гибридный — комбинация обоих подходов.

Anthropic Computer Use

Computer Use — функция Claude, позволяющая модели управлять компьютером напрямую: перемещать курсор, кликать, печатать, запускать приложения. Доступна через API:

import anthropic

client = anthropic.Anthropic()
response = client.beta.messages.create(
    model="claude-opus-4-5",
    max_tokens=1024,
    tools=[
        {"type": "computer_20241022", "name": "computer", "display_width_px": 1280, "display_height_px": 800}
    ],
    messages=[{"role": "user", "content": "Открой браузер и найди цену на авиабилеты Москва-Сочи"}]
)

OpenAI Operator

Operator — веб-агент OpenAI, встроенный в ChatGPT Pro. Умеет:

  • Заполнять формы и делать заказы
  • Бронировать столики и отели
  • Искать и сравнивать товары
  • Взаимодействовать с веб-сервисами от имени пользователя

Пока доступен в ограниченном режиме. Требует подтверждения для действий с финансами.

Инструменты для разработчиков

ИнструментПодходЯзыкЛицензия
Playwright + LLMDOMPython/JSApache 2.0
Browser UseГибридныйPythonMIT
StagehandVision+DOMTypeScriptMIT
SkyvernVisionPythonAGPL
Agent-EDOMPythonApache 2.0

Пример: Browser Use + Claude

from browser_use import Agent
from langchain_anthropic import ChatAnthropic

agent = Agent(
    task="Зайди на toolarium.ru и найди статью про LLM",
    llm=ChatAnthropic(model="claude-opus-4-5"),
)
result = await agent.run()

Риски и ограничения

  • Безопасность — агент действует от вашего имени, важно ограничивать его права
  • CAPTCHA — многие сайты блокируют автоматизированный доступ
  • Стоимость — vision-модели дороже текстовых, задачи требуют много токенов
  • Ненадёжность — UI сайтов меняется, агенты могут ломаться

Подробнее об агентных системах — в статье про агентный ИИ и стандарт MCP.

ИИ-агенты и управление компьютером: как это работает

Computer Use — новый класс ИИ-возможностей: модель видит скриншот экрана и выполняет действия (клики, ввод текста, прокрутка). В отличие от традиционных чат-ботов, агенты могут самостоятельно решать многошаговые задачи через GUI приложений без API.

Платформы Computer Use в 2025 году

ПлатформаМодельСредаДоступность
Claude Computer UseClaude 3.5 SonnetLinux VM (Docker)Anthropic API (GA)
OpenAI OperatorGPT-4oБраузер (Chrome)ChatGPT Plus/Pro
Google Project MarinerGeminiChrome ExtensionLabs (ограниченно)
Browser Use (open source)Любая LLMPlaywright браузерGitHub, бесплатно

Claude Computer Use: архитектура

Anthropic предоставляет эталонную реализацию через Docker-контейнер с Ubuntu Desktop + VNC. Claude видит скриншоты и вызывает инструменты: computer (screenshot, click, type, scroll), bash (команды терминала), text_editor (редактирование файлов).

Типичные задачи, которые решает Computer Use: заполнение форм на сайтах без API, автоматизация legacy-систем с графическим интерфейсом, тестирование UI приложений,. извлечение данных с сайтов с защитой от парсинга.

Browser Use: open source альтернатива

Browser Use — Python-библиотека для управления браузером через LLM. Использует Playwright под капотом. Поддерживает любой LLM с function calling: GPT-4o, Claude, Gemini, Ollama. Активно развивается сообществом (5 000+ GitHub stars за первые месяцы). Бесплатная альтернатива проприетарным Computer Use решениям.

Ограничения и риски агентов

Надёжность: агенты совершают ошибки при сложных многошаговых задачах. Средний успех в production — 50–80% в зависимости от задачи.

Безопасность: агент может выполнить нежелательные действия. Необходим human-in-the-loop для критических операций (платежи, удаление данных).

Стоимость: многошаговые задачи генерируют много токенов. Задача из 20 шагов = 20 скриншотов = тысячи токенов vision API.