FlashKDA: Moonshot открыла ядра Kimi Delta Attention для H20

Moonshot выложила FlashKDA под MIT и показала ускорение 1,85-2,31x на H20. Разбираем, почему это новость про ядра инференса, а не про очередную модель.

FlashKDA: график Kimi Linear с Kimi Delta Attention и ускорением инференса на H20

Проверено 1 мая 2026 года. Moonshot выложила FlashKDA под лицензией MIT и показала, что её CUTLASS-ядра для Kimi Delta Attention дают на NVIDIA H20 ускорение примерно от 1,85x до 2,31x против fla_chunk_kda из flash-linear-attention. На бумаге это выглядит как узкая инженерная новость. На деле сигнал сильнее: гонка open-source ИИ всё чаще уходит ниже уровня весов моделей, к ядрам инференса и оптимизациям слоя исполнения.

Если коротко, Moonshot открыла не новую модель Kimi и не очередной чат-интерфейс. Компания открыла слой, который помогает быстрее крутить уже существующую attention-архитектуру. Для разработчиков это важнее пресс-релизной риторики: такие релизы проще встраивать в рабочий стек, чем абстрактные обещания про «прорывной интеллект».

Что именно открыла Moonshot

В официальном репозитории MoonshotAI/FlashKDA проект описан как Flash Kimi Delta Attention и как высокопроизводительные KDA-ядра, построенные на CUTLASS. Это сразу ставит рамку: речь не о новой модели, а о низкоуровневой реализации attention-механизма, который Moonshot использует в семействе Kimi Linear.

По состоянию на 1 мая 2026 года в README у проекта зафиксированы жёсткие требования: SM90+, CUDA 12.9+ и PyTorch 2.4+. После установки FlashKDA автоматически подхватывается из flash-linear-attention как бэкенд для chunk_kda. Если нужно вернуться на старый путь, Moonshot прямо указывает переменную FLA_FLASH_KDA=0. Это хорошая инженерная деталь: проект сразу сделан не как отдельное демо, а как встраиваемый бэкенд.

Есть и ещё один практический маркер зрелости. Pull request #852 в flash-linear-attention уже влит, то есть FlashKDA не висит в воздухе как исследовательский код без точки входа. Для разработчика это означает понятный маршрут внедрения: обновить flash-linear-attention, установить FlashKDA и проверить, попадает ли ваш вызов chunk_kda в новый бэкенд.

На фоне новостей про DeepSeek V4 Pro и Flash это выглядит как другой тип открытости. Там в центре релиза стояли веса и модельный ряд. Здесь в центр вынесен кусок стека инференса, который влияет на скорость работы уже выбранной архитектуры.

Что показывают H20-бенчмарки

Moonshot вынесла отдельный файл BENCHMARK_H20.md и зафиксировала в нём дату генерации: 22 апреля 2026 года. Там же указаны настройки прогона: warmup=30, iters=200, repeats=5. Это важно, потому что без таких деталей любые красивые цифры превращаются в маркетинг.

Конфигурация Сценарий Ускорение vs chunk_kda Ускорение vs gdn
T=8192, H=96, D=128 Fixed 1,85x 1,22x
T=8192, H=96, D=128 Varlen, seq_lens=[1300, 547, 2048, 963, 271, 3063] 2,06x 1,30x
T=8192, H=96, D=128 Varlen, 1024 x 8 2,29x 1,43x
T=8192, H=64, D=128 Fixed 1,95x 1,24x
T=8192, H=64, D=128 Varlen, seq_lens=[1300, 547, 2048, 963, 271, 3063] 1,91x 1,17x
T=8192, H=64, D=128 Varlen, 1024 x 8 2,31x 1,40x

Самая интересная часть здесь не только в максимуме 2,31x. Репозиторий отдельно показывает сценарии с пакетами переменной длины. Это уже похоже на попытку говорить на языке реального инференса, а не только на языке ровных синтетических прогонов. Если коротко, Moonshot демонстрирует, что выигрыш держится не в одном красивом фиксированном кейсе, а и в более неровных последовательностях.

График из deep-dive FlashKDA с сравнением точности против fla_chunk_kda
Moonshot отдельно показывает сравнение точности FlashKDA и fla_chunk_kda на разных входных случаях. Источник: MoonshotAI/FlashKDA.

Почему это новость про инфраструктуру, а не про очередную модель

Чтобы понять смысл релиза, полезно вернуться к репозиторию Kimi Linear и исходной статье на arXiv. Там Moonshot описывает Kimi Delta Attention как refinement of Gated DeltaNet и связывает её с гибридной attention-архитектурой, где KDA сочетается с глобальной MLA. В README проекта компания утверждает, что такая схема даёт до 75% экономии по KV cache и до 6,3x faster TPOT на контексте до 1M токенов.

Именно здесь FlashKDA становится интересной не только фанатам Moonshot. Если лаборатория открывает слой вычислительных ядер для своей attention-архитектуры, она делает ставку на воспроизводимость и внедрение. Это уже не жанр «смотрите, у нас есть paper». Это жанр «вот код, вот ограничения, вот бенчмарк, вот путь интеграции». Разница огромная.

Поэтому новость логично читать рядом с нашим материалом про точечное ускорение декодирования LLM без потери качества. Рынок всё чаще выигрывает не одной большой модельной ставкой, а цепочкой более приземлённых оптимизаций: квантование, память, пакетирование, вычислительные ядра и маршрутизация нагрузки. FlashKDA укладывается ровно в этот слой.

Схема Kimi Linear с Kimi Delta Attention и глобальной MLA
Kimi Delta Attention в официальной схеме Kimi Linear показана как часть гибридной attention-архитектуры, а не как отдельный трюк ради benchmark. Источник: MoonshotAI/Kimi-Linear.

Где ограничения прямо сейчас

Перехваливать FlashKDA не стоит. В официальном README ограничения перечислены довольно прямо. Репозиторий требует SM90+, то есть это не история про универсальное ускорение на любом парке GPU. Кроме того, текущее API ядра работает с условием K = V = 128, а бенчмарк, который Moonshot показывает публично, относится к сценарию прямого прохода на Hopper/H20.

Есть и ещё одна деталь из deep-dive отчёта. В версии v1 Moonshot сознательно выбрала CHUNK = 16, а не 64, как в Flash Linear Attention. В документе компания объясняет это проще, чем обычно пишут в research-постах: так легче уложиться в bf16 по числовому диапазону, дешевле инвертировать матрицу 16 x 16 и проще держать реализацию переносимой без слишком специфичных аппаратных зависимостей. Плюс разделение вычисления на два отдельных ядра, по словам Moonshot, дало минимум 15% end-to-end speedup против более раннего single-kernel prototype.

Для читателя это означает простую вещь. FlashKDA не «ускоряет все LLM» и не отменяет существующие компромиссы. Она ускоряет конкретный attention-путь в конкретном стеке при конкретных требованиях. Но именно так и выглядят полезные инфраструктурные релизы: не магия, а хорошо очерченная зона выигрыша.

Что это меняет для разработчиков

Если ваша команда уже смотрит в сторону Hopper/H20-класса GPU и крутит модели через flash-linear-attention, FlashKDA даёт понятный эксперимент: можно проверить, сколько скорости вы выигрываете в KDA-сценарии без полного переписывания стека инференса. Это редкий случай, когда новость про низкоуровневые ядра превращается в действие, которое разработчик действительно может повторить.

Есть и более широкий рыночный вывод. Китайские лаборатории всё чаще публикуют не только веса, но и инфраструктурные куски вокруг них. В этом смысле FlashKDA хорошо рифмуется с нашим разбором китайского AI-стека вокруг DeepSeek и Huawei Ascend. Конкуренция идёт уже не только за «лучшую модель», но и за то, кто быстрее соберёт вокруг неё рабочий, воспроизводимый и относительно открытый контур исполнения.

Дополнительные материалы из исследовательской подборки про OAuth для MCP-серверов и agentic UI здесь полезны только как фон. Они показывают ту же общую тенденцию: прикладной ИИ взрослеет через инфраструктуру. Но главный герой этой истории всё равно не gateway и не интерфейс, а оптимизация на уровне вычислительных ядер, которую можно потрогать руками уже сейчас.

Итог

FlashKDA важна не потому, что Moonshot снова напомнила о бренде Kimi. Она важна потому, что компания открыла инженерный слой с понятными ограничениями, интеграцией в существующий стек и измеримыми H20-бенчмарками. В 2026 году это всё чаще и есть настоящая новость: не громче всех назвать модель, а быстрее остальных выложить полезный кусок инфраструктуры.

Если этот тренд сохранится, спор про open-source ИИ будет всё меньше крутиться вокруг лозунгов и всё больше вокруг конкретных вещей: расход памяти, TPOT, пакетирование, вычислительные ядра и цена внедрения. FlashKDA как раз из этой категории.

Источники и дата проверки

Факты, ограничения, бенчмарк-числа, даты и детали интеграции в этом материале проверены 1 мая 2026 года по официальным источникам Moonshot: репозиторию FlashKDA, файлу BENCHMARK_H20.md, deep-dive отчёту FlashKDA v1: A Deep Dive, pull request #852 в flash-linear-attention, статье Kimi Linear: An Expressive, Efficient Attention Architecture и репозиторию MoonshotAI/Kimi-Linear. Быстро меняющиеся данные о производительности и поддерживаемых конфигурациях могут измениться после этой даты.

Telegram-канал @toolarium