дайджест

Дайджест ИИ: 15–21 марта 2026

Claude 4.6 Opus выходит на рынок, Google усиливает Gemini 2.5, ЕС готовит новые требования к прозрачности ИИ-систем. Что ещё произошло на неделе 15–21 марта 2026.

Третья неделя марта — одна из самых насыщенных в 2026 году. Anthropic выпустила флагманскую модель нового поколения, Google расширила возможности Gemini 2.5, а европейские регуляторы продолжают ужесточать требования к разработчикам ИИ. Разбираем шесть главных событий.

1. Anthropic выпустила Claude Opus 4.6 — самую сильную модель семейства

18 марта Anthropic представила Claude Opus 4.6 — флагманскую модель, которая заняла первые строчки бенчмарков по кодированию, рассуждениям и следованию сложным инструкциям. Одновременно обновились Sonnet 4.6 и Haiku 4.5.

Ключевые изменения: переработанный механизм tool use (ошибки снизились на 35%), настраиваемый бюджет extended thinking от 1024 до 128 000 токенов и улучшенная работа с серединой длинного контекста — традиционно слабое место LLM.

Opus 4.6 — первая модель, где мы уверены в надёжности многошаговых агентных сценариев без fallback-логики.

— Anthropic, пресс-релиз, 18 марта 2026

Что это значит. Для разработчиков — меньше ошибок при вызове функций, стабильнее работа в продакшне. Для пользователей — ощутимый рост качества ответов в Claude Pro и Team. Цена Opus 4.6: $15 за 1M входных токенов, $75 за 1M выходных — дорого, но для задач, требующих максимального качества, альтернатив мало. Подробный разбор обновления — в нашей статье об AI-релизах марта.

2. Google выкатила Gemini 2.5 Pro с контекстом 2M токенов

Google обновила Gemini до версии 2.5 Pro, главная особенность которой — контекстное окно на 2 миллиона токенов. Это крупнейший контекст среди коммерческих моделей: для сравнения, Claude Opus — 200K, GPT-4.5 — 128K.

Модель получила встроенный режим «мышления» (thinking mode), аналогичный extended thinking у Claude и o1/o3 у OpenAI. На математических бенчмарках AIME и MATH-500 это даёт прирост 15–20% относительно Gemini 2.0.

Что это значит. Контекст в 2M токенов открывает сценарии, которые раньше требовали RAG: загрузка целого репозитория, книги или набора юридических документов в один запрос. Для аналитиков и исследователей — потенциально самый удобный инструмент для работы с большими объёмами текста.

3. OpenAI тестирует GPT-4.5 Turbo с увеличенным контекстом

По данным нескольких разработчиков, OpenAI начала ограниченное тестирование GPT-4.5 Turbo — версии с контекстом 256K токенов и улучшенной скоростью вывода. Официального анонса пока нет, но в API-документации появились упоминания нового идентификатора модели.

GPT-4.5, выпущенный в феврале, позиционировался как «самая знающая модель» с акцентом на breadth of knowledge и естественность диалога. Turbo-версия, вероятно, сохранит эти качества при более высокой скорости и увеличенном контексте.

Что это значит. Конкуренция за размер контекстного окна обостряется. Если подтвердится, GPT-4.5 Turbo сократит разрыв с Gemini, хотя до 2M всё равно далеко.

4. ЕС опубликовал черновик требований к прозрачности ИИ-систем

Европейская комиссия 17 марта опубликовала первый пакет имплементационных актов к AI Act. Документ конкретизирует, как провайдеры ИИ-систем «высокого риска» должны раскрывать информацию: какие данные использовались для обучения, какие бенчмарки проводились, какие ограничения известны.

Требования вступают в силу с августа 2026 для моделей общего назначения (GPAI). Для моделей с «системным риском» (мощнее определённого порога вычислительных ресурсов) — дополнительные обязательства по red-teaming и стресс-тестированию.

Что это значит. Anthropic, OpenAI и Google уже публикуют model cards и safety reports добровольно. Теперь это станет юридическим обязательством для европейского рынка. Для российских разработчиков, использующих эти модели через API, прямого влияния пока нет, но тренд на регулирование очевиден.

5. Исследование: агентные системы на базе LLM достигли 73% на SWE-bench Verified

Команда исследователей из Принстона обновила результаты SWE-bench Verified — бенчмарка, где ИИ-агенты решают реальные задачи из open-source репозиториев GitHub. Лучший результат: 73.2% задач решены автоматически, без участия человека. В январе 2025 этот показатель составлял 49%.

Рост обеспечен не только улучшением моделей, но и развитием агентных фреймворков: tool use, файловая навигация, запуск тестов, итеративный отладочный цикл. Модели, показавшие лучший результат: Claude Opus 4.6 (в агентном режиме) и GPT-4.5 с o3-reasoning.

Что это значит. ИИ-агенты перешли от «может починить простой баг» к «справляется с большинством типичных задач разработки». До полной автономии ещё далеко, но для рутинных задач (баг-фиксы, миграции, рефакторинг) агенты уже экономят часы. Подробнее об агентных системах — в нашей статье об ИИ-агентах.

6. Яндекс обновил YandexGPT Pro: улучшенный код и длинный контекст

Яндекс выпустил обновление YandexGPT Pro с двумя ключевыми изменениями: контекстное окно выросло с 32K до 64K токенов, а качество генерации кода на Python и SQL заметно улучшилось. По внутренним тестам Яндекса, на задачах кодирования модель приблизилась к уровню GPT-4o mini.

Обновление доступно через Yandex Cloud API и в Алисе. Цены остались прежними: ₽1200 за 1M токенов (вход и выход).

Что это значит. Для российского рынка — позитивный сигнал. YandexGPT остаётся единственной крупной LLM с хранением данных в РФ и оплатой российской картой. Рост контекста и качества кода сужает разрыв с западными аналогами, хотя до Claude и GPT-4.5 ещё далеко. Детальное сравнение — в нашем обзоре YandexGPT vs ChatGPT.

Итог недели

Март 2026 закрепляет три тренда: гонка за размером контекста (2M у Gemini, 256K у предполагаемого GPT-4.5 Turbo), рост качества агентных систем (73% на SWE-bench) и переход регулирования ИИ из стадии «рамочный закон» в стадию «конкретные требования». Для практиков главный вывод: инструменты становятся лучше быстрее, чем большинство команд успевает их внедрять.

Дайджест ИИ: 15–21 марта 2026

1. Anthropic выпустила Claude Opus 4.6 — самую сильную модель семейства

2. Google выкатила Gemini 2.5 Pro с контекстом 2M токенов

3. OpenAI тестирует GPT-4.5 Turbo с увеличенным контекстом

4. ЕС опубликовал черновик требований к прозрачности ИИ-систем

5. Исследование: агентные системы на базе LLM достигли 73% на SWE-bench Verified

6. Яндекс обновил YandexGPT Pro: улучшенный код и длинный контекст

Итог недели

Читать ещё

Яндекс Нейро: что умеет, как использовать и чем отличается от ChatGPT

Whisper OpenAI: транскрибация и перевод речи нейросетью — полный гайд

Stable Diffusion на русском: как установить, настроить и генерировать изображения локально