OmniTools 6月9日消息,小米MiMo与TileRT联合发布MiMo-V2.5-Pro-UltraSpeed模式,首次实现1T参数旗舰模型输出速度突破1000 tokens/s。
该模式在模型侧采用FP4混合量化(仅量化MoE Expert)与DFlash块级masked并行推测解码,在编程场景下平均接受长度为6.30 tokens;系统侧由TileRT引入常驻内核引擎与异构流水线协作。
相关API于2026年6月9日至23日限时开放,定价为MiMo-V2.5-Pro的3倍,实测速度提升约10倍。FP4权重与DFlash模型checkpoint已开源至HuggingFace。