返回行业动态

通义千问Qwen3.5在TokenSpeed引擎上实现580 tps推理速度

2026/05/27 17:19
查看原文

OmniTools 5月28日消息,通义千问Qwen3.5模型在TokenSpeed推理引擎上针对智能体工作负载达成580 tokens per second(tps)的推理速度,创开源大语言模型推理性能新高。该成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队联合实现,并集成tri_dao开发的FlashAttention-4(FA4)优化技术。此次突破标志着开源大模型在高吞吐、低延迟推理方向取得重要进展。