UnslothAI 发布 Qwen3.6 MTP GGUF 模型，单卡推理速度显著提升

OmniTools 5月14日消息，UnslothAI 创始人 Daniel Han 近日发布实验性 Qwen3.6 MTP GGUF 模型，采用 MTP（Multi-Token Prediction）投机解码技术优化推理性能。

测试数据显示，该模型在单 GPU 环境下，27B 版本推理速度达每秒 140 token，35B-A3B 版本高达每秒 220 token，较原版 GGUF 提速超 1.4 倍且精度无损。

核心优化在于将 draft tokens 设定为 2，在吞吐量与接受率之间取得最佳平衡。该技术显著降低了消费级显卡运行大语言模型的门槛，进一步拓展了本地 AI 的性能边界。