谷歌发布多模态模型 Gemini Omni，支持图文音频生成视频

OmniTools 5月20日消息，谷歌在2026年I/O开发者大会上正式发布Gemini Omni系列多模态模型，首个版本Gemini Omni Flash即日起上线Gemini应用、YouTube Shorts及AI创意工作室Flow。该模型可融合文本、图像、音频与视频输入，通过自然语言指令生成或编辑视频，首期支持生成最长10秒的高质量视频。

Gemini Omni Flash具备物理、文化、历史与科学常识理解能力，例如输入“黏土动画风格的蛋白质折叠讲解”，即可生成含语音旁白的定格动画视频。用户还可使用文字指令编辑照片，并创建个人数字头像——头像需经本人语音验证注册，生成视频默认嵌入Google SynthID数字水印以标识AI生成内容。

谷歌强调，Omni并非现有视频模型Veo的简单升级，而是将Gemini的多模态推理能力与媒体生成技术深度整合的下一代架构。Omni Pro专业版尚未发布，API接口预计数周内向开发者开放。