LLM Mistral Medium 3.5 объединяет chat, reasoning и code Mistral свела chat, reasoning и coding в одну 128B-модель и сразу подвязала её к Vibe и Work mode в Le Chat.
LLM FlashKDA: Moonshot открыла ядра Kimi Delta Attention для H20 Moonshot выложила FlashKDA под MIT и показала ускорение 1,85-2,31x на H20. Разбираем, почему это новость про ядра инференса, а не про очередную модель.
OpenAI OpenAI o1 в Harvard-исследовании обошёл врачей на ER-triage OpenAI o1 в Harvard-исследовании показал лучший результат на ER-triage. Разбираем бенчмарк clinical reasoning, цифры и почему это всё ещё не «замена врача».
LLM Cohere приобретает Aleph Alpha и собирает контур суверенного ИИ Cohere забирает Aleph Alpha, Schwarz Group добавляет 500 млн евро и STACKIT. Главное в истории не само M&A, а попытка собрать для Европы контур суверенного ИИ.
AI-агенты ARC-AGI-3 показал три системные ошибки frontier-моделей ARC Prize разобрала 160 прогонов GPT-5.5 и Claude Opus 4.7 и показала три повторяющихся сбоя, которые потом ломают и реальные агентные сценарии.
LLM Дружелюбные LLM ошибаются чаще: что показало исследование Nature Исследование Nature на пяти моделях показало неприятный компромисс: чем теплее и эмпатичнее обучали LLM, тем чаще они ошибались, поддакивали неверным убеждениям и хуже выдерживали эмоциональный контекст.
LLM T-Технологии показали, как снизить соглашательство LLM R&D-центр T-Технологий предложил способ снижать склонность LLM соглашаться без полного переобучения. Объясняем, почему это важно для кода, математики и проверяемых задач.