ServiceNow-AI发布语码转换语音识别基准：ElevenLabs与Gemini 3 Flash表现领先

OmniTools 6月10日消息，ServiceNow-AI团队于Hugging Face平台发布一项针对语码转换（code-switching）语音识别的基准测试报告。该测试覆盖西英、法英、加拿大法英及德英四组语言对，聚焦企业IT与HR服务场景，构建超900条经母语者审核的合成语音样本。

研究采用词错误率（WER）、语义词错误率（SWER）和答案错误率（AER）三项指标，对ElevenLabs Scribe V2、Google Gemini 3 Flash、AssemblyAI Universal 3-Pro、OpenAI Whisper等7款主流ASR系统进行评估。结果显示，Scribe V2在多数语言对中WER最低，转录精度领先；Gemini 3 Flash在AER指标上表现更优，凸显其下游语义理解优势；Whisper Large V3 Turbo因未指定语言时默认将混合语音翻译为英文，各项指标均垫底。

报告指出，语码转换带来的性能损耗因模型而异：头部模型相对稳健，WER增量普遍控制在较低水平，而中尾部模型误差显著放大。该基准数据集及评估框架AU-Harness已全面开源，供社区复现与迭代。