当前位置:首页 > 人工智能 > >

OpenAI推新模型Sora 文字生成视频超惊艳

OpenAI推新模型Sora 文字生成视频超惊艳
2024-02-16 21:14:09 来源:聚焦媒体网

阿尔特曼表示,未来就在这里。图为动物在海上骑脚车。(互联网照片)

美国人工智能(AI)公司OpenAI推出最新人工智能(AI)模型“Sora”,可经文字指令生成逼真的视频,不仅长度可达1分钟,而且不论画面或拟真程度,影音效果都相当出色,惊艳全球网民。

片长可达1分钟

OpenAI形容此工具“不仅理解用户在指示中提出的要求,还理解有关事物如何存在于现实世界”。

法新社报道,这间获微软支持的公司指出,这个新平台在进行测试,不过释出了几段OpenAI认为已经可行的视频,附上生成视频的文字输入指令。

静态图也可生成视频

OpenAI在部落格贴文中表示:“Sora能生成长达1分钟的视频,同时维持视觉品质,并符合用户的指令。这款模型也能从既有的静态图片生成视频。”

OpenAI CEO阿尔特曼在平台X表示,公司在测试阶段“向数量有限的创作者提供存取权限。”

他也邀请用户在平台X上提出指令建议,几分钟后在这个平台上张贴颇具说服力的视频生成结果,其中包括两只黄金猎犬在山上开串流Podcast、老奶奶在厨房教烹饪、动物在海上骑脚车,以及珠光宝气的动物园。

还有另一支视频显示“半鸭半龙的生物飞驰在美丽的暮色中,背上骑着一只身着探险装备的仓鼠。”

称有弱点 内容或不合逻辑

不过这间总部位于旧金山的新创公司警告说,“目前的模型存有弱点”,像是左右不分,或未能在整段视频中维持视觉连贯性。

OpenAI声明指出,安全性会是一大关键,还说Sora会面临对抗性资安测试,也就是所谓的红队演练(red-teaming),期间特定用户会试图让平台失灵,产生不恰当的内容或出毛病。

OpenAI指出:“我们会接洽全球政策制定者、教育家和艺术家,以了解他们的顾虑,并找出这种新技术的正面使用案例。”

可呈现多角色多镜头复杂场景

OpenAI表示,Sora能够生成的视频内容,可有多个角色,或是特定类型的动态画面,也将根据提示的主题与背景精准生成视频内容,并可在单一视频中呈现多个镜头,同时也可以为静态图像制作动画,只不过再次强调Sora还是个尚未完成的模型,所以无法处理复杂的物理或空间细节,因此会生成不合逻辑的视频,仍有许多缺陷需要修正。

OpenAI也提到,在建立可以识别Sora生成视频的检测系统,计划在输出视频时把诠释资料嵌入其中,将有助于识别AI生成的内容。

目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。

Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

研发阶段仍有明显不足处

《卫报》引述OpenAI报道,Sora以日文的“天空”一词发音命名。Sora目前处于研发阶段,仍有明显不足之处,尤其是在空间细节方面,容易混淆左右等,又或是在短片中可见有人咬了一口曲奇,惟曲奇没有咬痕。

外界关注AI工具的使用安全。OpenAI表示,计划与专家团队合作,对最新模型进行测试,并密切关注虚假资讯,以及涉及憎恨和偏见的内容,并正在开发工具帮助检测误导信息。Sora亦会给予视觉艺术家、设计师和电影制片人试用,以收集他们的意见。

技术方面,目前OpenAI透露的不多,简单介绍如下:

Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。

与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。

在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。通过这种统一的数据表示方式,可在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、解像度和纵横比。

关键词:

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

投诉邮箱:Email:133 46734 45@qq.com

相关新闻