OmniTools 6月23日消息,京东近日开源全栈交互式多模态模型 JoyAI-VL-Interaction,获 vLLM-Omni 原生支持。该模型支持持续视频流理解、关键事件主动识别与实时响应,并可将复杂任务交由后台 Agent 处理。
在 58 组真人盲测中,该模型在视频通话场景下对豆包助手胜率为 77.6%,对 Gemini 视频通话助手胜率为 87.9%;在监控预警任务中达到 100% 胜率。
开源内容涵盖模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头/直播流输入、语音交互、长期记忆与 vLLM 部署,适用于安防监控、老人看护、直播讲解等实时交互场景。