OmniTools 6月16日消息,Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型,并将 Spec V2 设为 SGLang 默认解码引擎。DFlash 采用块扩散与 KV 注入技术,支持并行生成整块 draft token。在 Qwen 3.5 397B A17B(BF16)模型与 HumanEval 数据集测试中,单并发吞吐量达基线的 4.3 倍。