Войти Подписаться

Ключевые хабы

LLM ИИ для разработчиков OpenAI AI-агенты Нейросети Продуктивность RAG

LLM

Всё о больших языковых моделях: архитектура, обучение, бенчмарки и практическое применение LLM в реальных проектах.

Официальный график Mistral со сравнением Medium 3.5 и конкурирующих моделей на агентных бенчмарках

Mistral Medium 3.5 объединяет chat, reasoning и code

Mistral свела chat, reasoning и coding в одну 128B-модель и сразу подвязала её к Vibe и Work mode в Le Chat.

FlashKDA: график Kimi Linear с Kimi Delta Attention и ускорением инференса на H20

FlashKDA: Moonshot открыла ядра Kimi Delta Attention для H20

Moonshot выложила FlashKDA под MIT и показала ускорение 1,85-2,31x на H20. Разбираем, почему это новость про ядра инференса, а не про очередную модель.

OpenAI o1 в Harvard-исследовании по ER-triage: первая страница статьи Science

OpenAI o1 в Harvard-исследовании обошёл врачей на ER-triage

OpenAI o1 в Harvard-исследовании показал лучший результат на ER-triage. Разбираем бенчмарк clinical reasoning, цифры и почему это всё ещё не «замена врача».

Cohere, Aleph Alpha и Schwarz Digits объявляют сделку о суверенном ИИ в Европе 24 апреля 2026 года

Cohere приобретает Aleph Alpha и собирает контур суверенного ИИ

Cohere забирает Aleph Alpha, Schwarz Group добавляет 500 млн евро и STACKIT. Главное в истории не само M&A, а попытка собрать для Европы контур суверенного ИИ.

Официальная обложка ARC Prize: ошибки frontier-моделей в ARC-AGI-3

AI-агенты

ARC-AGI-3 показал три системные ошибки frontier-моделей

ARC Prize разобрала 160 прогонов GPT-5.5 и Claude Opus 4.7 и показала три повторяющихся сбоя, которые потом ломают и реальные агентные сценарии.

Фигура из исследования Nature о том, как обучение LLM на тёплый стиль связано с ростом ошибок и соглашательства

Дружелюбные LLM ошибаются чаще: что показало исследование Nature

Исследование Nature на пяти моделях показало неприятный компромисс: чем теплее и эмпатичнее обучали LLM, тем чаще они ошибались, поддакивали неверным убеждениям и хуже выдерживали эмоциональный контекст.

Официальная визуализация T-Bank AI с ноутбуком, щитом и элементами проверки

T-Технологии показали, как снизить соглашательство LLM

R&D-центр T-Технологий предложил способ снижать склонность LLM соглашаться без полного переобучения. Объясняем, почему это важно для кода, математики и проверяемых задач.

Telegram-канал @toolarium