LLM LLM в психотических диалогах: что показало новое исследование Исследование CUNY и King’s College London сравнило ChatGPT, Claude, Gemini и Grok в длинных кризисных диалогах и показало, что большой контекст может как включать защиту, так и ломать её.
DeepSeek DeepSeek V4 vs GPT-5.5: зачем open weights стали встречным ходом рынка DeepSeek V4 и GPT-5.5 одновременно вошли в класс million-token context. Главный спор теперь не только о качестве, но и о способе доступа к frontier-модели.
DeepSeek DeepSeek V4 меняет экономику frontier-моделей DeepSeek V4 запускает 1M контекст, open weights и агрессивный split между cache miss и cache hit. Это не просто ещё один релиз модели, а попытка переписать экономику длинных агентных сессий.
OpenAI GPT-5.5 в ChatGPT и Codex: главные сигналы рынка ИИ 23 апреля OpenAI вывела GPT-5.5 в ChatGPT и Codex, но не открыла модель в API в день анонса. Это важнее обычного релизного шума: рынок снова смещается к рабочему контуру вокруг модели.
безопасность N-Day-Bench: как LLM ищут реальные уязвимости в коде N-Day-Bench проверяет, как LLM ищут реальные N-day уязвимости в коде. Главное не leaderboard, а методика, traces и ограничения.
AI-агенты ИИ-агенты в продакшене: tokenmaxxing и tool-overuse Tokenmaxxing, tool-overuse и SkillGraph показывают, почему зрелые ИИ-агенты в продакшене требуют лимитов, трасс и осознанного порядка действий.
LLM Deccan AI привлёк $25 млн на разметку данных для LLM: кто и зачем платит миллиарды за пост-тренинг Индийский стартап Deccan AI закрыл раунд Series A на $25 млн для разметки данных и пост-тренинга больших языковых моделей. Что стоит за бумом рынка аннотации данных.