Google Gemini Agent Skill: рост с 28% до 97% на задачах кодинга

Google DeepMind создала Agent Skill для Gemini API: навык подсказывает кодинг-агентам актуальные модели и SDK, поднимая успешность задач с 28% до 97%.

Google Gemini Agent Skill: рост с 28% до 97% на задачах кодинга

Проблема: модели не знают собственных обновлений

У всех языковых моделей одна слабость: фиксированные знания. Модель обучают на данных определённого периода, и после этого она понятия не имеет, что поменялось в SDK, какие методы устарели и какие модели сейчас актуальны.

Для Google DeepMind это стало конкретной болью: модели Gemini не знали о собственных обновлениях. Разработчик просит у ИИ-ассистента код с Gemini API, а тот генерирует вызовы устаревших моделей и старых версий SDK. Код не работает, разработчик раздражён, доверие к инструменту падает.

Решений существует несколько: веб-поиск, MCP-серверы с документацией, прямые инструкции через файлы вроде AGENTS.md. Команда Google DeepMind решила проверить ещё один подход, agent skills, и получила рост успешности с 28% до 97%.

График результатов Gemini Agent Skill по категориям задач: успешность моделей с навыком и без
Результаты Gemini Agent Skill по категориям задач. Источник: Google Developers Blog

Agent Skill: как устроен навык для кодинг-агента

25 марта 2026 года инженеры Google DeepMind Филипп Шмид и Марк Макдональд опубликовали результаты эксперимента с agent skill для Gemini API. Кодинг-агент получает набор актуальных знаний о платформе прямо в контексте.

Навык gemini-api-dev содержит четыре компонента:

  • описание текущих возможностей API,
  • список актуальных моделей и SDK для каждого языка,
  • примеры кода для каждого SDK,
  • ссылки на документацию как основной источник истины.

Этот набор инструкций подключается к любому кодинг-агенту (Claude Code, Cursor, Gemini CLI) и подсказывает ему, какие модели и SDK использовать прямо сейчас. Агент также получает два инструмента: activate_skill для активации навыка и fetch_url для загрузки свежей документации.

Результаты тестирования: 117 задач, рост в 3.4 раза

Для оценки команда создала тестовый набор из 117 промптов. Каждый требовал написать код на Python или TypeScript с использованием Gemini SDK. Задачи охватывали агентные сценарии, чатботов, обработку документов, стриминг контента и специфичные функции SDK.

Критерий провала: если код использует устаревший SDK, задача не засчитана.

МодельБез навыкаС навыкомПрирост
Gemini 3.1 Pro Preview28,2%96,6%+68,4 п.п.
Gemini 3.0 Pro6,8%~90%+значительный
Gemini 3.0 Flash6,8%~90%+значительный
Модели серии 2.5выше базовойумеренный ростслабее

Gemini 3.1 Pro Preview показала 96,6% успешности. Без навыка та же модель справлялась с 28,2% задач. Модели серии 3.0 стартовали ещё хуже, с 6,8%.

По категориям задач навык сработал почти везде. Самый низкий показатель, 95%, пришёлся на категорию «Использование SDK». Часть провалов вызвали промпты, которые явно просили использовать старую модель Gemini 2.0. Тут навык бессилен: если разработчик сам запрашивает устаревшее, инструкция не поможет.

Почему новые модели выигрывают больше

Модели серии 2.5 тоже получили прирост от навыка, но гораздо скромнее. Google объясняет это уровнем reasoning, способностью модели рассуждать и следовать сложным инструкциям.

Навык, по сути, набор правил и контекста. Чтобы его использовать, модель должна:

  • понять, какая информация из навыка релевантна конкретной задаче,
  • применить её при генерации кода,
  • при необходимости обратиться к документации за деталями.

Модели серии 3.x справляются с этим на порядок лучше. Это подтверждает тренд всей индустрии: агентные возможности напрямую зависят от качества рассуждений модели.

Альтернативы: AGENTS.md и MCP-серверы

Google признаёт, что agent skill не единственный и не обязательно лучший подход. Исследование Vercel показало, что прямые инструкции через файлы AGENTS.md могут быть ещё эффективнее.

AGENTS.md — файл в корне проекта с правилами и контекстом для ИИ-ассистента. Этот подход популяризировала Anthropic для Claude Code, и его быстро подхватили другие инструменты.

Параллельно Google развивает и другие каналы доставки знаний:

  • Gemini Docs MCP, MCP-сервер на gemini-api-docs-mcp.dev, через который агент получает доступ к актуальной документации в реальном времени,
  • три отдельных навыка: gemini-api-dev (общая разработка), gemini-live-api-dev (Live API для real-time приложений), gemini-interactions-api (Interactions API для агентных приложений).

Главное преимущество навыков: простота. Одна команда в терминале, и агент знает актуальное состояние API. Минус тоже есть: навыки не обновляются автоматически. Со временем в проекте может остаться устаревшая версия, которая принесёт больше вреда, чем пользы.

Документация Google по настройке кодинг-ассистента с Gemini MCP и Skills
Страница документации Gemini API по настройке кодинг-агентов. Источник: ai.google.dev

Как установить Gemini Agent Skill

Установка занимает одну команду. Google поддерживает два менеджера навыков:

# Через skills.sh (рекомендуется)
npx skills add google-gemini/gemini-skills --skill gemini-api-dev --global

# Через Context7
npx ctx7 skills install /google-gemini/gemini-skills gemini-api-dev

Для полного покрытия стоит также подключить MCP-сервер документации:

npx add-mcp gemini-api-docs-mcp.dev

После установки проверить работу можно вопросом к агенту: «Как использовать context caching с Gemini API?». Если ответ содержит актуальные методы и ссылается на текущие модели, всё работает. Навык совместим с основными кодинг-ассистентами: Claude Code, Cursor, Gemini CLI, GitHub Copilot.

Что это значит для разработчиков

Проблема устаревших знаний в ИИ-ассистентах решаема без дообучения модели. Достаточно правильно организовать контекст. Рост с 28% до 97% на реальных задачах переводит инструмент из категории «генерирует мусор» в категорию «можно положиться».

При этом качество рассуждений модели задаёт потолок. Даже с идеальным контекстом слабая модель не покажет сильный результат. Стратегия Google с инвестициями в reasoning серии Gemini 3.x на этом фоне выглядит ещё логичнее.

Для тех, кто работает с Gemini API, установка навыка — очевидный шаг. А для разработчиков собственных SDK это шаблон: если ваш API быстро меняется, agent skill может резко поднять качество кода, который генерируют ИИ-ассистенты ваших пользователей.


Читайте также

Telegram-канал @toolarium