返回行业动态

Leaf 开源实时通话 AI 分身项目,端到端延迟压至 1 秒内

2026/06/26 16:18
查看原文

OmniTools 6月27日消息,近日,开发者 Leaf 开源了一款实时通话 AI 分身项目,以网红“峰哥”为原型,集成语音识别、大模型对话与语音合成全流程,将端到端工程延迟压缩至 1 秒内。

技术实现方面,项目采用 Cartesia ink-whisper 进行语音降噪与防误触发;大模型选用 MiniMax 高速版,首字响应时间达 361ms;语音合成基于开源模型 VoxCPM,仅需 15 秒音频样本即可完成音色克隆。整体响应体验从早期的 8–20 秒优化至体感 2–3 秒。

在人格建模上,项目通过女娲(Nuwa)Skill 从直播语料中蒸馏出口头禅与思维逻辑。该工具已实现轻量化部署,用户克隆代码后,借助 Claude Code 或 Cursor 配置并填入两个 API Key,约半小时即可在本地跑通。