MOSS-TTS-Nano

MOSS-TTS-Nano

轻量级开源多语言语音合成模型,支持 CPU 实时推理与声音克隆。

访问官网

工具介绍

产品简介

MOSS-TTS-Nano 是由 MOSI.AI 与 OpenMOSS 团队联合开源的轻量级语音生成模型。该模型仅含 0.1B 参数,采用纯自回归架构(Audio Tokenizer + LLM),专为低延迟实时语音合成设计。它无需 GPU 即可在普通 CPU 上流畅运行,并提供完整的本地部署方案与 ONNX 优化版本,大幅降低了语音合成技术的接入门槛。

核心功能

  • 模型仅 0.1B 参数,无需 GPU 即可在 CPU 流畅运行
  • 支持 20 种语言与高质量声音克隆
  • 提供 ONNX 优化版本与本地 Web 演示,部署集成便捷
  • 覆盖音频与语音相关需求

适用场景

  • 音频处理

适合谁用

  • 开发者
  • 技术团队
  • 需要集成 AI 能力的产品团队

核心能力

主能力
音频与语音
次要能力
暂无次要能力

适用场景

音频处理

编辑点评

"MOSS-TTS-Nano 是一款轻量级开源语音合成模型,仅 0.1B 参数即可在 CPU 上实现实时多语言语音生成与声音克隆,部署门槛低,适合开发者快速集成。"

优势

  • 模型仅 0.1B 参数,无需 GPU 即可在 CPU 流畅运行
  • 支持 20 种语言与高质量声音克隆
  • 提供 ONNX 优化版本与本地 Web 演示,部署集成便捷

局限

  • 需手动配置 Python 环境及多个依赖(如 pynini、WeTextProcessing),部分用户可能遇到安装障碍(见 GitHub Issue #6)

Q&A

快速了解这个工具的常见问题与答案

Q
这个工具是否提供免费版?
Answer

是的,完全免费开源,采用 Apache-2.0 许可证,用户可自由下载、修改、部署和商用。

Q
这个工具如何收费?
Answer

完全免费开源,采用 Apache-2.0 许可证,用户可自由下载、部署和商用。

Q
这个工具支持哪些访问方式?
Answer

支持通过命令行接口(CLI)和本地 API 调用。项目提供 Python 脚本(infer.py/app.py)和 CLI 命令(如 moss-tts-nano generate/serve),用户可启动本地 FastAPI 服务进行 HTTP 调用。

Q
这个工具是否支持 API?
Answer

支持本地 API 调用。项目提供 FastAPI 后端脚本(app.py / app_onnx.py),用户可在本地启动 HTTP 服务,通过 REST 接口调用语音合成能力。但该服务默认仅限 localhost 访问,不提供云端或托管 API。

Q
这个工具是否支持中文或多语言?
Answer

支持简体中文和英语,并明确声明支持包括日语、韩语、法语等在内的共 20 种语言。项目提供中英文双语文档(README.md / README_zh.md)。