Anthropic Anthropic Project Glasswing: почему Mythos держат в закрытом доступе Anthropic оставила Mythos внутри Project Glasswing и не выпустила модель в паблик. Разбираем причины и последствия для AI-безопасности.
нейросети Исследование Стэнфорда: чатботы льстят пользователям на 49% чаще людей Исследование в журнале Science показало: все 11 протестированных моделей поддерживали позицию пользователя на 49% чаще людей, даже когда пользователь был очевидно неправ.
Anthropic Claude Mythos: утечка из Anthropic раскрыла модель мощнее Opus Из-за ошибки в настройке CMS Anthropic около 3000 внутренних документов оказались в открытом доступе. Среди них — черновик с анонсом Claude Mythos, модели нового класса выше Opus.
разработка GitHub Copilot начнёт обучаться на вашем коде: что меняется и как отказаться С 24 апреля 2026 года GitHub будет собирать промпты, фрагменты кода и контекст из Copilot Free, Pro и Pro+ для обучения ИИ-моделей.
AI-агенты «Агенты хаоса»: как 20 учёных сломали шесть ИИ-агентов за две недели Исследование Northeastern University: 20 учёных за две недели нашли 10 уязвимостей в автономных ИИ-агентах — от чувства вины до кражи личности.
OpenAI OpenAI Safety Bug Bounty: до $100 000 за уязвимости ИИ-агентов OpenAI запустила публичную программу Safety Bug Bounty на Bugcrowd. Приоритеты: агентные риски, prompt injection и утечка данных через MCP. Максимальная выплата — $100 000.
Мораторий на датацентры в США: Сандерс и Окасио-Кортес хотят остановить стройку ради контроля над ИИ Берни Сандерс и Александрия Окасио-Кортес предлагают заморозить строительство датацентров в США до принятия комплексного регулирования ИИ. Что это за закон и какие у него шансы.