ИИ-агенты в браузере: Computer Use и Operator
Anthropic Computer Use и OpenAI Operator — ИИ-агенты, которые управляют браузером и приложениями. Разбираем технологию.
ИИ-агенты научились управлять компьютером. Anthropic запустила Computer Use — возможность Claude взаимодействовать с десктопом через скриншоты и виртуальные клики. OpenAI ответила Operator — автономным агентом для выполнения задач в браузере. Оба продукта решают одну задачу: превратить текстовую инструкцию в последовательность действий на экране.
Anthropic Computer Use
Computer Use — функция API Claude, при которой модель получает скриншот экрана и может выполнять действия: кликать, печатать текст, скроллить, нажимать клавиши. Цикл работы: скриншот → анализ → действие → новый скриншот → следующее действие.
Техническая реализация: разработчик предоставляет Claude доступ к инструментам computer, text_editor и bash. Claude анализирует скриншот, определяет координаты элементов интерфейса и вызывает нужный инструмент. Пример: «Открой Gmail и ответь на последнее письмо» → Claude находит иконку браузера, кликает, вводит URL, находит письмо, нажимает Reply, печатает ответ.
Точность: на тестах OSWorld (реальные задачи на десктопе) Claude с Computer Use показал 22% — значительно выше предыдущих подходов (15%), но далеко от человеческого уровня. Ошибки: неточные клики, неправильная интерпретация мелкого текста, зацикливание на повторяющихся действиях.
OpenAI Operator
Operator — отдельный продукт OpenAI, доступный подписчикам ChatGPT Pro ($200/мес). В отличие от Computer Use, Operator работает только в браузере (не на десктопе) и имеет собственный интерфейс с изолированным браузерным окном.
Пользователь описывает задачу на естественном языке: «Забронируй столик в ресторане X на двоих в пятницу в 19:00». Operator открывает сайт ресторана, находит форму бронирования, заполняет данные и отправляет. Перед действиями, связанными с оплатой или отправкой данных, Operator запрашивает подтверждение.
Практические сценарии
Автоматизация рутины. Заполнение форм, бронирования, заказы — всё, что требует монотонного кликанья по веб-интерфейсам. Для бизнеса — обработка данных в CRM, перенос информации между системами.
Тестирование. ИИ-агент как QA-тестировщик: пройти пользовательский сценарий, проверить работоспособность интерфейса, зафиксировать баги.
Скрапинг и мониторинг. Сбор данных с сайтов, которые не имеют API. Мониторинг цен, наличия товаров, обновлений.
Ограничения
Скорость: агент работает в 10–50 раз медленнее человека. Каждое действие требует скриншота, анализа и генерации — 2–5 секунд на шаг. Задача из 20 шагов занимает 1–2 минуты.
Надёжность: на сложных интерфейсах (CAPTCHA, нестандартные элементы, всплывающие окна) агенты часто ошибаются. Для критичных задач необходим human-in-the-loop — человек подтверждает ключевые действия.
Безопасность: агент, управляющий браузером, потенциально может выполнить вредоносные действия — кликнуть по фишинговой ссылке, отправить данные не туда. Оба провайдера ограничивают действия подтверждениями, но риск остаётся. Подробнее о безопасности ИИ.
Что дальше
Агенты в браузере — ранняя стадия новой парадигмы. Через 2–3 года точность вырастет с 22% до 80%+, скорость ускорится за счёт оптимизации, а стоимость снизится с появлением специализированных моделей. Уже сейчас стоит экспериментировать: автоматизировать рутинные задачи, где ошибка не критична, и наращивать сложность по мере улучшения технологии.
Как работают ИИ-агенты в браузере
Браузерные агенты видят экран так же, как человек — через скриншоты или DOM-дерево — и выполняют действия: клики, ввод текста, скролл. Основные подходы:
- Vision-based — агент получает скриншот страницы, анализирует его мультимодальной моделью и принимает решения. Работает с любым интерфейсом, но медленнее.
- DOM-based — агент читает HTML-структуру страницы и взаимодействует с элементами по CSS-селекторам. Быстрее и точнее, но требует доступа к DOM.
- Гибридный — комбинация обоих подходов.
Anthropic Computer Use
Computer Use — функция Claude, позволяющая модели управлять компьютером напрямую: перемещать курсор, кликать, печатать, запускать приложения. Доступна через API:
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=1024,
tools=[
{"type": "computer_20241022", "name": "computer", "display_width_px": 1280, "display_height_px": 800}
],
messages=[{"role": "user", "content": "Открой браузер и найди цену на авиабилеты Москва-Сочи"}]
)OpenAI Operator
Operator — веб-агент OpenAI, встроенный в ChatGPT Pro. Умеет:
- Заполнять формы и делать заказы
- Бронировать столики и отели
- Искать и сравнивать товары
- Взаимодействовать с веб-сервисами от имени пользователя
Пока доступен в ограниченном режиме. Требует подтверждения для действий с финансами.
Инструменты для разработчиков
| Инструмент | Подход | Язык | Лицензия |
|---|---|---|---|
| Playwright + LLM | DOM | Python/JS | Apache 2.0 |
| Browser Use | Гибридный | Python | MIT |
| Stagehand | Vision+DOM | TypeScript | MIT |
| Skyvern | Vision | Python | AGPL |
| Agent-E | DOM | Python | Apache 2.0 |
Пример: Browser Use + Claude
from browser_use import Agent
from langchain_anthropic import ChatAnthropic
agent = Agent(
task="Зайди на toolarium.ru и найди статью про LLM",
llm=ChatAnthropic(model="claude-opus-4-5"),
)
result = await agent.run()Риски и ограничения
- Безопасность — агент действует от вашего имени, важно ограничивать его права
- CAPTCHA — многие сайты блокируют автоматизированный доступ
- Стоимость — vision-модели дороже текстовых, задачи требуют много токенов
- Ненадёжность — UI сайтов меняется, агенты могут ломаться
Подробнее об агентных системах — в статье про агентный ИИ и стандарт MCP.
ИИ-агенты и управление компьютером: как это работает
Computer Use — новый класс ИИ-возможностей: модель видит скриншот экрана и выполняет действия (клики, ввод текста, прокрутка). В отличие от традиционных чат-ботов, агенты могут самостоятельно решать многошаговые задачи через GUI приложений без API.
Платформы Computer Use в 2025 году
| Платформа | Модель | Среда | Доступность |
|---|---|---|---|
| Claude Computer Use | Claude 3.5 Sonnet | Linux VM (Docker) | Anthropic API (GA) |
| OpenAI Operator | GPT-4o | Браузер (Chrome) | ChatGPT Plus/Pro |
| Google Project Mariner | Gemini | Chrome Extension | Labs (ограниченно) |
| Browser Use (open source) | Любая LLM | Playwright браузер | GitHub, бесплатно |
Claude Computer Use: архитектура
Anthropic предоставляет эталонную реализацию через Docker-контейнер с Ubuntu Desktop + VNC. Claude видит скриншоты и вызывает инструменты: computer (screenshot, click, type, scroll), bash (команды терминала), text_editor (редактирование файлов).
Типичные задачи, которые решает Computer Use: заполнение форм на сайтах без API, автоматизация legacy-систем с графическим интерфейсом, тестирование UI приложений,. извлечение данных с сайтов с защитой от парсинга.
Browser Use: open source альтернатива
Browser Use — Python-библиотека для управления браузером через LLM. Использует Playwright под капотом. Поддерживает любой LLM с function calling: GPT-4o, Claude, Gemini, Ollama. Активно развивается сообществом (5 000+ GitHub stars за первые месяцы). Бесплатная альтернатива проприетарным Computer Use решениям.
Ограничения и риски агентов
Надёжность: агенты совершают ошибки при сложных многошаговых задачах. Средний успех в production — 50–80% в зависимости от задачи.
Безопасность: агент может выполнить нежелательные действия. Необходим human-in-the-loop для критических операций (платежи, удаление данных).
Стоимость: многошаговые задачи генерируют много токенов. Задача из 20 шагов = 20 скриншотов = тысячи токенов vision API.