Thinking Machines interaction models: ставка на ИИ без очереди реплик
Thinking Machines хочет убрать очередь реплик из AI-интерфейсов и перенести interactivity внутрь самой модели.
Проверено 12 мая 2026 года. Thinking Machines 11 мая показала interaction models как новый тип ИИ-интерфейса: модель непрерывно принимает аудио, видео и текст, реагирует в реальном времени и не ждёт, пока человек договорит до конца. По официальному описанию текущая версия TML-Interaction-Small работает с 200-миллисекундными чанками, построена как 276B MoE с 12B active parameters и должна выйти в limited research preview в ближайшие месяцы, а более широкий релиз компания обещает позже в 2026 году.
На первый взгляд это похоже на ещё один голосовой режим. Но суть новости не в голосе как таковом. Thinking Machines предлагает перенести саму interactivity внутрь архитектуры модели: ассистент может слушать, говорить, смотреть, запускать инструменты и возвращать результат в разговор без жёсткого деления на «мой ход» и «ход модели». Если эта схема приживётся, она изменит не только голосовых ассистентов, но и то, как будут устроены AI-агенты и рабочие интерфейсы вокруг них.
Поэтому читать новость стоит не как общий обзор голосового ИИ, а как конкретную ставку Thinking Machines на слой между чатом, агентом и пользовательским интерфейсом. Для фона у нас уже есть материалы про мультимодальные модели, ИИ-агентов и интерфейсы для AI-агентов. Новый релиз важен именно тем, что пытается собрать эти линии в один рабочий контур.
Thinking Machines показала новый тип AI-интерфейса
В официальном анонсе Thinking Machines несколько раз проводит одну и ту же мысль: чат с ответами по очереди уже стал узким местом. Обычная схема с VAD, распознаванием речи и отдельным диалоговым менеджером подходит для сценария «сказал фразу, дождался ответа», но плохо справляется с живым разговором, где нужно перебить, поправить человека на лету, отреагировать на визуальную подсказку или начать говорить одновременно с пользователем. Именно против этого ограничения и направлен новый стек.
Компания перечисляет набор способностей, которые для обычного голосового чата до сих пор скорее исключение: одновременная речь, чувство времени, реакция на визуальный мир и параллельные вызовы инструментов прямо во время разговора. В примерах на странице модель не просто отвечает после паузы, а корректирует произношение по ходу речи, считает действия по видео, может переводить вживую и, если нужно, искать информацию или поднимать интерфейс, не обрывая диалог.

Эта деталь важнее, чем может показаться. Большая часть сегодняшних real-time API всё ещё строится вокруг очередности реплик: человек говорит, система ловит конец фразы, потом начинает отвечать. Thinking Machines спорит именно с этим дизайном. Она хочет, чтобы у модели было своё чувство времени и ситуации, а не только готовый текст после сигнала «пользователь закончил».
Связка interaction model и background model
Ещё одна сильная часть анонса в том, что Thinking Machines не делает вид, будто одна модель должна одинаково хорошо и молниеносно разговаривать, и долго рассуждать. В тексте прямо описана схема из двух слоёв. Первый — interaction model — отвечает за живой контур: слушает, говорит, видит и держит темп разговора. Второй — asynchronous background model — уходит в более тяжёлые вычисления, вызовы инструментов и длинные цепочки рассуждений.
Это выглядит прагматичнее, чем обещания «универсального агента на все случаи жизни». Interaction model не должна каждый раз проваливаться в длинный внутренний монолог. Она может делегировать тяжёлую задачу в фоновый слой, получить назад результат и встроить его в разговор в тот момент, когда это уместно для пользователя. По сути, Thinking Machines пытается развести скорость реакции и глубину мышления, не заставляя человека переключаться между разными продуктами или режимами.
Именно здесь релиз начинает пересекаться с более широким разговором про агентность. В нашем материале «ИИ-агенты: что это и когда они действительно нужны» мы разбирали, что автономность сама по себе не равна хорошему UX. Interaction models предлагают другой путь: не «агент вместо интерфейса», а интерфейс, в котором агентные функции встроены в сам ритм общения.
Цифры, которые Thinking Machines показывает уже сейчас
По состоянию на 12 мая 2026 года у Thinking Machines есть не только концепт, но и набор вполне конкретных метрик. Часть из них относится к уже известным benchmark-ам вроде FD-bench, часть — к внутренним тестам, которые пытаются измерить то, что обычные аудиочаты почти не умеют: timing, одновременную речь и визуальную проактивность. Важно, что все числа ниже взяты из официального поста компании, а не из пересказов в медиа.
| Параметр | Что заявляет Thinking Machines | Почему это важно |
|---|---|---|
| Архитектура | TML-Interaction-Small — 276B MoE с 12B active parameters |
Компания уже сейчас строит interaction layer не на игрушечной модели, а на передовом классе, пусть и с жёсткими ограничениями по скорости. |
| Темп потока | 200 ms chunks для входа и выхода | Это объясняет, почему TML говорит не про «голосовую функцию», а про системный real-time контур с отдельной оптимизацией инференса. |
| FD-bench v1.5 Average | 77.8 у TML-interaction-small против 46.8 у GPT-realtime-2.0 minimal | В официальной таблице Thinking Machines модель выигрывает по качеству взаимодействия, а не только по общей «интеллектуальности». |
| Turn-taking latency | 0.40 s у TML-interaction-small против 1.18 s у GPT-realtime-2.0 minimal | Разговорный UX ломается именно на задержках. Здесь компания пытается показать, что скорость ответа — часть модели, а не только внешней обвязки. |
| Внутренние proactive benchmarks | TimeSpeak 64.7 против 4.3; CueSpeak 81.7 против 2.9; Charades mIoU 32.4 против 0 у GPT-realtime-2.0 minimal | Главный тезис Thinking Machines: существующие real-time модели часто молчат там, где новая interaction model уже должна вмешаться. |
| Роллаут | Limited research preview в ближайшие месяцы, wider release later this year | Это пока не массовый продукт. Компания сама признаёт, что стек ещё в стадии сбора обратной связи и масштабирования. |
К этим цифрам стоит относиться без фанатизма. Таблица опубликована самой Thinking Machines, а внутренние benchmark-ы вроде TimeSpeak и CueSpeak пока не являются общепринятым отраслевым стандартом. Но у релиза есть сильная сторона: компания хотя бы пытается измерять interactivity как отдельный класс способностей, а не прятать всё за общим «голосовым режимом».

Interaction models как следующий слой после voice mode
Самая полезная рамка для этой новости звучит так: Thinking Machines продаёт не голос, а interactivity как архитектурный примитив. Голосовой режим можно прикрутить и к обычному чату. Interaction model в их трактовке — это система, где время, перебивания, визуальные сигналы и параллельные вызовы инструментов изначально входят в модельный контур.
Отсюда и связь с будущим агентных интерфейсов. Если модель умеет одновременно следить за человеком, слушать контекст, подхватывать инструменты и возвращать результат в разговор в правильный момент, то сам UX AI-агента меняется. Он становится ближе не к форме «напиши запрос и жди», а к живому рабочему слою, который постоянно присутствует рядом. В этом смысле релиз Thinking Machines напрямую рифмуется с тем, что Google пытается сделать в A2UI: агенту нужен не только мозг, но и интерфейс, который не мешает действовать.
При этом важно не скатиться в маркетинговую формулу про «нового убийцу ChatGPT Voice». Новость сильнее в другом: Thinking Machines показывает, как голос, мультимодальность и агентные функции могут срастаться внутри одной системы. Это уже ближе к будущему рабочих AI-интерфейсов, чем к обычной гонке ассистентов за более естественный голос.
Предел подхода уже виден
Ограничения в официальном тексте тоже прописаны достаточно честно. Непрерывные аудио и видео быстро съедают контекст, так что очень длинные сессии остаются проблемой. Низкая задержка требует стабильного соединения; без него качество ощутимо падает. Более крупные pretrained-модели компания пока не может обслуживать в таком режиме достаточно быстро. Иными словами, interaction layer уже работает как идея, но ещё не решает все инженерные вопросы, которые нужны для массового развёртывания.
Есть и второй предел: интерактивность сама по себе не гарантирует глубину. Именно поэтому Thinking Machines оставляет background model отдельным слоем и прямо пишет, что только начинает исследовать, как фоновая агентная часть должна работать вместе с interaction model. Это хороший сигнал. Компания не делает вид, будто уже собрала идеального универсального ассистента. Она показывает кусок будущего интерфейса и довольно открыто говорит, что остальная система ещё дорабатывается.
Главный вывод: ставка на ИИ без очереди реплик
Если убрать шум вокруг демо, остаётся понятный вывод. 11 мая 2026 года Thinking Machines не просто показала ещё одну real-time модель. Она предложила новую точку сборки для AI-ассистента: interaction model держит живой разговор и окружение, background model забирает глубокое рассуждение и инструменты, а пользователь получает не последовательность реплик по очереди, а более непрерывный рабочий контур.
Для рынка это важный сдвиг. Чем сильнее становятся модели, тем меньше ценность самого факта «они умеют говорить голосом» и тем выше ценность вопроса, как именно они живут рядом с пользователем. Thinking Machines делает ставку именно на это. Если она дотянет качество, задержки и безопасный rollout, следующая большая конкуренция в AI может идти не вокруг того, кто отвечает умнее в одном сообщении, а вокруг того, чья модель лучше встроена в сам ритм работы человека.
Источники и дата проверки
Факты в материале проверены 12 мая 2026 года. Быстро меняющиеся детали вроде сроков preview, лимитов research access и состава benchmark-таблиц после этой даты могут измениться.
- Thinking Machines Lab: Interaction Models: A Scalable Approach to Human-AI Collaboration
- VentureBeat: Thinking Machines shows off preview of near-realtime AI voice and video conversation