OmniTools 6月10日消息,ServiceNow-AI团队于Hugging Face平台发布一项针对语码转换(code-switching)语音识别的基准测试报告。该测试覆盖西英、法英、加拿大法英及德英四组语言对,聚焦企业IT与HR服务场景,构建超900条经母语者审核的合成语音样本。
研究采用词错误率(WER)、语义词错误率(SWER)和答案错误率(AER)三项指标,对ElevenLabs Scribe V2、Google Gemini 3 Flash、AssemblyAI Universal 3-Pro、OpenAI Whisper等7款主流ASR系统进行评估。结果显示,Scribe V2在多数语言对中WER最低,转录精度领先;Gemini 3 Flash在AER指标上表现更优,凸显其下游语义理解优势;Whisper Large V3 Turbo因未指定语言时默认将混合语音翻译为英文,各项指标均垫底。
报告指出,语码转换带来的性能损耗因模型而异:头部模型相对稳健,WER增量普遍控制在较低水平,而中尾部模型误差显著放大。该基准数据集及评估框架AU-Harness已全面开源,供社区复现与迭代。