返回行业动态

谷歌发布多模态模型 Gemini Omni,支持图文音频生成视频

2026/05/19 17:54
查看原文

OmniTools 5月20日消息,谷歌在2026年I/O开发者大会上正式发布Gemini Omni系列多模态模型,首个版本Gemini Omni Flash即日起上线Gemini应用、YouTube Shorts及AI创意工作室Flow。该模型可融合文本、图像、音频与视频输入,通过自然语言指令生成或编辑视频,首期支持生成最长10秒的高质量视频。

Gemini Omni Flash具备物理、文化、历史与科学常识理解能力,例如输入“黏土动画风格的蛋白质折叠讲解”,即可生成含语音旁白的定格动画视频。用户还可使用文字指令编辑照片,并创建个人数字头像——头像需经本人语音验证注册,生成视频默认嵌入Google SynthID数字水印以标识AI生成内容。

谷歌强调,Omni并非现有视频模型Veo的简单升级,而是将Gemini的多模态推理能力与媒体生成技术深度整合的下一代架构。Omni Pro专业版尚未发布,API接口预计数周内向开发者开放。