火山引擎发布豆包音频生成模型1.0

OmniTools 6月23日消息，火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0）。该模型支持文本与音频参考联合输入，可端到端生成目标音频。单条Prompt即可编排多角色对白、情绪语气、背景音乐及环境氛围，并在长时生成中保持音色一致性，无需后期多轨混音。

模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制，具备“一声多角”能力。单次最长支持2分钟音频创作，多次延长仍能保持音色统一。

目前该模型已开启火山方舟API邀测，个人用户可享30分钟免费创作额度，后续将陆续集成至剪映、即梦、番茄等产品。