Войти Подписаться

Ключевые хабы

LLM ИИ для разработчиков OpenAI AI-агенты Нейросети Продуктивность RAG

безопасность

Безопасность ИИ: атаки на языковые модели, защита данных, alignment и этические вопросы применения AI.

Схема Gram для проверки Gemini scheming и sabotage в агентных сценариях DeepMind Safety Research

безопасность

Gemini проверили на scheming: что это значит для безопасности AI-агентов

DeepMind проверила Gemini на scheming в агентных coding/research сценариях: baseline выглядит спокойнее, но подсказки и права доступа меняют риск.

Rosalind Franklin у микроскопа на изображении R&D World к материалу о Rosalind Biodefense

OpenAI Rosalind Biodefense: зачем GPT-Rosalind дают биообороне

OpenAI открыла Rosalind Biodefense: спонсируемый доступ к GPT-Rosalind для доверенных разработчиков и отдельных государственных команд по биообороне.

Prompt injection в jqwik: GitHub release jqwik 1.10.0 Anti AI Release для AI coding agents

безопасность

Prompt injection в jqwik: stdout как риск для AI coding agents

jqwik 1.10.0 добавил prompt injection в stdout тестового движка. Разбираем, почему проблема не в одной строке, а в том, что AI coding agents читают логи как рабочий контекст.

AI safety закон Иллинойса: Дэниел Дидех выступает в Палате представителей Иллинойса во время рассмотрения SB 315

безопасность

AI safety закон Иллинойса: SB 315 прошёл обе палаты

SB 315 прошёл обе палаты Иллинойса и может стать новым американским стандартом AI safety для frontier labs: аудит, отчёты, инциденты и роль штатов.

Логотип Google Cloud на стенде компании к материалу о Gemini API keys и AI security

безопасность

Google Cloud и Gemini API keys: где ломается AI security

Почему старые Google API keys стали опаснее после Gemini: публичные ключи, счета за инференс, задержки budget alerts и окно отзыва до 23 минут.

Заголовок arXiv-работы Quantization Undoes Alignment о квантизации LLM и bias

Квантизация LLM может ломать alignment: почему perplexity не хватает

Разбор arXiv-работы Quantization Undoes Alignment: как 3-bit квантизация может добавлять bias и почему safety-аудит нужен после сжатия.

Страница arXiv с исследованием о галлюцинированных ссылках и AI-slop в научных работах

arXiv вводит годовой бан за непроверенный AI-slop в препринтах

arXiv будет банить авторов за непроверенный AI-slop: выдуманные ссылки, оставленные комментарии LLM и другие признаки халтуры.

Telegram-канал @toolarium