Source: The Verge
自OpenAI展示了引人入胜的文本到视频AI“Sora”以来已经过去了三个月,现在谷歌试图窃取一些风头。谷歌在周二的I/O开发者大会上宣布,他们的最新生成式AI视频模型Veo可以生成“高质量”的1080p分辨率视频,长度一分钟以上,采用各种视觉和电影风格。根据谷歌的新闻稿透露,Veo具有“先进的自然语言理解”,使该模型能够理解“延时摄影”或“航拍景观”等电影术语。用户可以通过文本、图像或视频提示指导所需的输出,谷歌称最终生成的视频“更加连贯和一致”,在镜头中展现人、动物和物体更真实的移动。
谷歌DeepMind首席执行官Demis Hassabis在周一的新闻预览会上表示,可以使用额外提示改进视频结果,谷歌正在探索更多功能,使Veo能够生成故事板和较长的场景。和许多这类AI模型预览一样,大多数希望尝试Veo的人可能会需要等待一段时间。谷歌称他们正在邀请一些电影制作人和创作者与该模型进行实验,以确定如何最好地支持创意,并将在这些合作中不断改进,以确保“创作者在谷歌开发的AI技术中发表自己的意见。一些Veo功能还将在未来几周内提供给“选择的创作者”在VideoFX中私下预览 — 您可以在此处等待列表中注册,提前尝试一下。
此外,谷歌还计划将一些功能添加到YouTube Shorts中。这是谷歌在过去几年中制作的几个视频生成模型之一,从Phenaki和Imagen Video — 后者产生粗糙、常常扭曲的视频剪辑 — 到今年1月展示的Lumiere模型。后者是我们在Sora 2月份发布之前看到的最令人印象深刻的模型之一,谷歌表示Veo甚至更擅长理解视频内容、模拟真实世界的物理,生成高清输出等。
与此同时,OpenAI已经将Sora推向好莱坞,计划于今年晚些时候向公众发布,该公司在3月份曾经预告,可能在“几个月内”就能推出该产品。该公司还已经在考虑将音频融入Sora,并可能使该模型直接在像Adobe的Premiere Pro这样的视频编辑应用程序中可用。鉴于Veo也被推测为电影制作人的工具,OpenAI的领先优势可能会加大谷歌项目的竞争难度。
在AI技术逐渐融入影视行业的今天,专注于影片生成的新模型竞争激烈,创新和先发优势或许能决定竞争的胜负。