返回行业动态

UnslothAI 发布 Qwen3.6 MTP GGUF 模型,单卡推理速度显著提升

2026/05/14 03:03
查看原文

OmniTools 5月14日消息,UnslothAI 创始人 Daniel Han 近日发布实验性 Qwen3.6 MTP GGUF 模型,采用 MTP(Multi-Token Prediction)投机解码技术优化推理性能。

测试数据显示,该模型在单 GPU 环境下,27B 版本推理速度达每秒 140 token,35B-A3B 版本高达每秒 220 token,较原版 GGUF 提速超 1.4 倍且精度无损。

核心优化在于将 draft tokens 设定为 2,在吞吐量与接受率之间取得最佳平衡。该技术显著降低了消费级显卡运行大语言模型的门槛,进一步拓展了本地 AI 的性能边界。