OmniTools 6月16日消息,AI 语音技术公司 Cartesia 正式推出 Sonic 3.5 与 Ink 2 两款实时语音模型,构建统一的实时语音技术栈。其中,Sonic 3.5 专注于文本转语音(TTS),Ink 2 专注于语音转文本(STT)。
据第三方评测机构 Artificial Analysis 最新榜单显示,Ink 2 在流式语音识别领域位列第一;Sonic 3.5 在实时文本转语音评测中同样登顶,首音频延迟仅约 82 毫秒。Cartesia 由此成为目前唯一同时在该榜单语音识别与语音合成双赛道占据榜首的厂商。