可用文本图像理解音频理解视频理解深度思考函数调用联网搜索

MiMo V2.5

MiMo V2.5 是小米官方标注的原生全模态模型,支持文本、图像、视频和音频理解,并具备 1M 上下文窗口。

官方模型 ID
mimo-v2.5

模型定位

MiMo V2.5 是小米 MiMo V2.5 系列中的原生全模态模型,支持文本、图像、视频和音频理解。

价格与上下文

  • 输入价格:1 元 / MTok(未命中缓存)
  • 缓存命中输入价格:0.02 元 / MTok
  • 输出价格:2 元 / MTok
  • 上下文窗口:1,000,000 tokens
  • 最大输出:128,000 tokens

选择建议

如果任务同时包含图片、音频、视频或普通中文对话,MiMo V2.5 比 Pro 更适合作为全模态入口;如果是复杂代码和长程 Agent,再升级到 Pro。