通义千问Qwen3.5在TokenSpeed引擎上实现580 tps推理速度

OmniTools 5月28日消息，通义千问Qwen3.5模型在TokenSpeed推理引擎上针对智能体工作负载达成580 tokens per second（tps）的推理速度，创开源大语言模型推理性能新高。该成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队联合实现，并集成tri_dao开发的FlashAttention-4（FA4）优化技术。此次突破标志着开源大模型在高吞吐、低延迟推理方向取得重要进展。