Google Google TurboQuant: алгоритм сжимает память LLM в 6 раз без потери качества Google Research представила TurboQuant — алгоритм сжатия KV-кэша до 3 бит, который уменьшает память LLM в 6 раз и ускоряет attention в 8 раз. Без потери качества.
AI-агенты Cloudflare Agent Cloud OpenAI: зачем агентам боевой контур OpenAI и Cloudflare переводят AI-агентов из демо в production: GPT-5.4, Codex harness, Sandboxes и инфраструктура Agent Cloud.
OpenAI OpenAI закрывает Sora: $15 млн в день и разворот к корпоративному рынку OpenAI закрывает Sora после полугода работы: $15 млн ежедневных расходов, отмена сделки Disney на $1 млрд и стратегический разворот к корпоративному рынку перед IPO.
разработка Linux kernel AI-generated code: правила для ИИ-кода Linux kernel формализовал правила для AI-generated code: человек подписывает DCO, ИИ раскрывается через Assisted-by, а ответственность не переезжает на модель.
Anthropic Anthropic Mythos и банки: почему США смотрят на тесты Anthropic Mythos и банки: почему власти США могут подталкивать финансовый сектор к тестам модели и где начинается конфликт с комплаенсом.
LLM Arcee Trinity-Large-Thinking: открытая модель на 400B Arcee AI выпустила Trinity-Large-Thinking — модель семейства Trinity с открытыми весами для задач рассуждения. Разбираем характеристики, бенчмарки и ограничения релиза.
нейросети SiFive, NVIDIA и RISC-V CPU для AI-датацентров Раунд SiFive на $400 млн показывает, что в AI-датацентрах снова важен слой CPU: RISC-V, заказные IP-блоки и связь с NVIDIA NVLink Fusion.