Thinking Machines发布原生多模态交互模型，支持实时人机协作

OmniTools 5月12日消息，前OpenAI首席技术官Mira Murati创立的Thinking Machines公司推出一种新型“交互模型”。该模型支持音频、视频与文本等多模态输入的原生、持续接收，并实现毫秒级实时响应，无需依赖Agent串联多个独立模型。

该模型采用双架构设计：前台交互模型以约200毫秒为处理节点，保障用户“在场感”并支持随时打断；后台推理模型则负责长程规划、工具调用等复杂任务。

两者协同运行，最终呈现为一个兼具实时交互能力与深度任务处理能力的统一人机协作界面。