返回行业动态

OpenAI 推出 API 新语音智能功能,含实时对话、翻译与转录模型

2026/05/07 22:27
查看原文

OmniTools 5月8日消息,OpenAI 宣布在其 Realtime API 中上线多项新语音智能功能,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。

GPT-Realtime-2 是新一代语音交互模型,基于 GPT-5 级推理能力,支持更复杂的实时对话;GPT-Realtime-Translate 支持超 70 种输入语言和 13 种输出语言的实时语音翻译;GPT-Realtime-Whisper 提供低延迟语音转文字能力,适用于实时交互场景。

OpenAI 表示,这些模型共同推动语音接口从简单应答向“边听、边理解、边行动”的工作型语音交互演进,适用场景涵盖客户服务、教育、媒体、活动及创作者平台等。API 调用按分钟(翻译与转录)或 token(GPT-Realtime-2)计费。