200毫秒搞定“插话式”AI！语音+视频实时互聊要来了：比你想的更像真人

近期，前OpenAI技术长Mira Murati创办的AI新创Thinking Machines曝光了一项“互動模型（interaction models）”研究预览。该团队推出TML-Interaction-Small，核心思路是把“即进行、可打断、能同步”的交互能力，直接写进模型架构里，而不是靠外部软件框架去模拟实时对话。

过去很多AI对话界面偏回合制：通常得等用户把话说完或输入完成，模型才开始推理并给出回应。这会让人很难在对话过程中即时补充、纠正或插话，也限制了语音与视频场景的自然度。Thinking Machines认为，要提升真实互聊体验，就必须让模型在对话进行中持续交错处理输入与输出。

为此，TML-Interaction-Small采用多串流与微回合设计，将处理节奏细化到200毫秒单位。展示中，模型不仅能进行主动语音回应，还能根据视觉线索快速做出反应；更关键的是，它可以与用户同时说话，且具备对“时间经过”的感知能力，使得对话不再只是聊天文本，而更接近人类通话中的流程协同。

在架构上，这套方案使用双模型组合：互動模型负责近实时的对话响应；后台模型则异步进行更重的推理、工具调用、检索与浏览等任务，并把结果整合回对话中。官方描述，该系统也能支持同步搜索、调用工具，甚至生成用于交互的UI，让AI不只是开口说，还能“做事”。

基准测试方面，TML-Interaction-Small在FD-bench V1的接话延迟评比中表现为0.40秒，优于GPT-realtime-2.0（minimal）的1.18秒，以及Gemini-3.1-flash-live（minimal）的0.57秒；在FD-bench V1.5互动品质评比中获得77.8分，也高于GPT-realtime-2.0（minimal）的46.8分与Gemini-3.1-flash-live（minimal）的54.3分。

值得关注的是，外界普遍提到大语言模型往往不原生具备“时钟”。而TML-Interaction-Small主打原生时间感知，因此更适合需要精确掌握流程节奏的任务，例如工业维护中的步骤控制、以及制药研究中的时间节点对齐等。

目前该技术仍处研究预览阶段，未来几个月将先开放有限测试，并计划在今年后续扩大推出。对于想要更自然、更像真人通话体验的语音与视频AI，这次的“互動模型”方向，或许正踩中关键。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Related Posts