近期,前OpenAI技术长Mira Murati创办的AI新创Thinking Machines曝光了一项“互動模型(interaction models)”研究预览。该团队推出TML-Interaction-Small,核心思路是把“即进行、可打断、能同步”的交互能力,直接写进模型架构里,而不是靠外部软件框架去模拟实时对话。
过去很多AI对话界面偏回合制:通常得等用户把话说完或输入完成,模型才开始推理并给出回应。这会让人很难在对话过程中即时补充、纠正或插话,也限制了语音与视频场景的自然度。Thinking Machines认为,要提升真实互聊体验,就必须让模型在对话进行中持续交错处理输入与输出。
为此,TML-Interaction-Small采用多串流与微回合设计,将处理节奏细化到200毫秒单位。展示中,模型不仅能进行主动语音回应,还能根据视觉线索快速做出反应;更关键的是,它可以与用户同时说话,且具备对“时间经过”的感知能力,使得对话不再只是聊天文本,而更接近人类通话中的流程协同。
在架构上,这套方案使用双模型组合:互動模型负责近实时的对话响应;后台模型则异步进行更重的推理、工具调用、检索与浏览等任务,并把结果整合回对话中。官方描述,该系统也能支持同步搜索、调用工具,甚至生成用于交互的UI,让AI不只是开口说,还能“做事”。
基准测试方面,TML-Interaction-Small在FD-bench V1的接话延迟评比中表现为0.40秒,优于GPT-realtime-2.0(minimal)的1.18秒,以及Gemini-3.1-flash-live(minimal)的0.57秒;在FD-bench V1.5互动品质评比中获得77.8分,也高于GPT-realtime-2.0(minimal)的46.8分与Gemini-3.1-flash-live(minimal)的54.3分。
值得关注的是,外界普遍提到大语言模型往往不原生具备“时钟”。而TML-Interaction-Small主打原生时间感知,因此更适合需要精确掌握流程节奏的任务,例如工业维护中的步骤控制、以及制药研究中的时间节点对齐等。
目前该技术仍处研究预览阶段,未来几个月将先开放有限测试,并计划在今年后续扩大推出。对于想要更自然、更像真人通话体验的语音与视频AI,这次的“互動模型”方向,或许正踩中关键。