AI-агенты GTA-2 benchmark AI-агентов: где у агентов ломается работа GTA-2 показывает неприятный разрыв: AI-агенты выбирают инструменты лучше, чем доводят рабочий сценарий до финального результата.
AI-агенты Stripe Minions: 1 300 PR в неделю без единой строчки кода Stripe мержит более 1 300 пулл-реквестов в неделю без единой строки человеческого кода. Разбираем, как устроены агенты Minions: devbox-ы, блюпринты, MCP-инструменты и жёсткие ограничения.
AI-агенты Kaggle Benchmarks: новый полигон для ИИ-моделей Kaggle Benchmarks показывает, как оценка ИИ-моделей уходит от статичных таблиц к воспроизводимым задачам для LLM и AI-агентов.
Anthropic Подписки Claude удвоились в 2026: реклама, Пентагон и новые продукты Платные подписки Claude более чем удвоились в 2026 году. Реклама на Super Bowl, конфликт с Пентагоном и новые продукты — анализ трёх драйверов роста Anthropic.
Anthropic Anthropic Economic Index: опытные пользователи Claude добиваются успеха на 4% чаще новичков Пятый отчёт Anthropic Economic Index показал: опытные пользователи Claude добиваются успеха на 4 процентных пункта чаще новичков. Разбираем данные за февраль 2026 года.
Яндекс YandexGPT vs ChatGPT: что выбрать для русскоязычной работы в 2026 году Где YandexGPT и Alice AI практичнее для работы из России, а где ChatGPT с GPT-5.5 и GPT-5.4 остаётся сильнее: доступ, контекст, инструменты и риски.
OpenAI Model Spec от OpenAI: как устроен фреймворк поведения ИИ-моделей OpenAI опубликовала подробный разбор Model Spec — документа, который определяет поведение всех моделей компании. Разбираем механизмы: цепочку команд, жёсткие правила, умолчания и публичные метрики.