返回行业动态

小米MiMo与TileRT联合推出UltraSpeed模式,1T模型输出速度突破1000 tokens/s

2026/06/09 03:52
查看原文

OmniTools 6月9日消息,小米MiMo与TileRT联合发布MiMo-V2.5-Pro-UltraSpeed模式,首次实现1T参数旗舰模型输出速度突破1000 tokens/s。

该模式在模型侧采用FP4混合量化(仅量化MoE Expert)与DFlash块级masked并行推测解码,在编程场景下平均接受长度为6.30 tokens;系统侧由TileRT引入常驻内核引擎与异构流水线协作。

相关API于2026年6月9日至23日限时开放,定价为MiMo-V2.5-Pro的3倍,实测速度提升约10倍。FP4权重与DFlash模型checkpoint已开源至HuggingFace。