阿尔特曼表示,未来就在这里。图为动物在海上骑脚车。(互联网照片)
美国人工智能(AI)公司OpenAI推出最新人工智能(AI)模型“Sora”,可经文字指令生成逼真的视频,不仅长度可达1分钟,而且不论画面或拟真程度,影音效果都相当出色,惊艳全球网民。
片长可达1分钟
OpenAI形容此工具“不仅理解用户在指示中提出的要求,还理解有关事物如何存在于现实世界”。
法新社报道,这间获微软支持的公司指出,这个新平台在进行测试,不过释出了几段OpenAI认为已经可行的视频,附上生成视频的文字输入指令。
静态图也可生成视频
OpenAI在部落格贴文中表示:“Sora能生成长达1分钟的视频,同时维持视觉品质,并符合用户的指令。这款模型也能从既有的静态图片生成视频。”
OpenAI CEO阿尔特曼在平台X表示,公司在测试阶段“向数量有限的创作者提供存取权限。”
他也邀请用户在平台X上提出指令建议,几分钟后在这个平台上张贴颇具说服力的视频生成结果,其中包括两只黄金猎犬在山上开串流Podcast、老奶奶在厨房教烹饪、动物在海上骑脚车,以及珠光宝气的动物园。
还有另一支视频显示“半鸭半龙的生物飞驰在美丽的暮色中,背上骑着一只身着探险装备的仓鼠。”
称有弱点 内容或不合逻辑
不过这间总部位于旧金山的新创公司警告说,“目前的模型存有弱点”,像是左右不分,或未能在整段视频中维持视觉连贯性。
OpenAI声明指出,安全性会是一大关键,还说Sora会面临对抗性资安测试,也就是所谓的红队演练(red-teaming),期间特定用户会试图让平台失灵,产生不恰当的内容或出毛病。
OpenAI指出:“我们会接洽全球政策制定者、教育家和艺术家,以了解他们的顾虑,并找出这种新技术的正面使用案例。”
可呈现多角色多镜头复杂场景
OpenAI表示,Sora能够生成的视频内容,可有多个角色,或是特定类型的动态画面,也将根据提示的主题与背景精准生成视频内容,并可在单一视频中呈现多个镜头,同时也可以为静态图像制作动画,只不过再次强调Sora还是个尚未完成的模型,所以无法处理复杂的物理或空间细节,因此会生成不合逻辑的视频,仍有许多缺陷需要修正。
OpenAI也提到,在建立可以识别Sora生成视频的检测系统,计划在输出视频时把诠释资料嵌入其中,将有助于识别AI生成的内容。
目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。
研发阶段仍有明显不足处
《卫报》引述OpenAI报道,Sora以日文的“天空”一词发音命名。Sora目前处于研发阶段,仍有明显不足之处,尤其是在空间细节方面,容易混淆左右等,又或是在短片中可见有人咬了一口曲奇,惟曲奇没有咬痕。
外界关注AI工具的使用安全。OpenAI表示,计划与专家团队合作,对最新模型进行测试,并密切关注虚假资讯,以及涉及憎恨和偏见的内容,并正在开发工具帮助检测误导信息。Sora亦会给予视觉艺术家、设计师和电影制片人试用,以收集他们的意见。
技术方面,目前OpenAI透露的不多,简单介绍如下:
Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。
在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。通过这种统一的数据表示方式,可在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、解像度和纵横比。
关键词:
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
投诉邮箱:Email:133 46734 45@qq.comInfinix推出了 Infinix AI,这是一种开创性的 AI 解决方案,旨在增强用户与技术的交互。随着 Infinix AI 的加入,即将推出的 I
谷歌日前已经发布 Android 16 开发者版本,通过调查代码外媒《Android Authority》发现,谷歌或有意通过 Gemini 取代 Google
AI 作画工具 Midjourney 日前推出了pan功能,能够生成图片外的场景,用户可以通过在输入框中点击上下左右来控制平移图...
2023年彭博富豪榜TOP10大部分来自于科技领域。由于AI技术的不断发展,美股在2023年年内出现了一波反弹,这使得科技领域的...
日前微软研究人员展示了 LLaVA-Med 模型,该模型主要用于生物医学方面的研究,可根据 CT、X 光图片等推测出患者的病...
Dreame X40 Master 扫地机器人和拖地机器人已在德国的一次活动中亮相。 该设备有一个紧凑的扩展坞,具有热水拖把清洗和烘干功能。 这
今年在Google I O 2024期间宣布推出全新开源模型Gemma 2,并且在日前正式向开发者、研究人员提供对应270亿组参数版本...
亚马逊经过数月的沉默之后,于今天正式推出了生成式 AI 产品 Bedrock。它将和 OpenAI 的 ChatGPT、微软的必应聊天(Bing Chat)、
宇树 Unitree Go2 四足机器人现已发布,共有三个版本:AIR、PRO、EDU,售价 9997 元起。 Go2 搭载 Unitree 自研 4D
今年9月于Microsoft 365 Copilot第二波更新推出名为Copilot agents (Copilot代理)的自动化应用工具,藉此让用户的工作效率能藉由人
美国航空航天局(NASA)工程师表示,他们正在研发一种类似于《2001 太空漫游》中的超级电脑 HAL 9000 的人工智能(AI)界面,未来可能
根据招聘求职网站 Indeed 公布的最新数据,今年 5 月美国生成式 AI 相关的职位数量环比增加了 20%,表明越来越多的美国企业希望
王小川旗下百川智能今日发布 Baichuan-13B 大模型,号称130 亿参数开源可商用。 ▲ 图源 Baichuang-13B GitHub 页面
钛媒体从华为内部独家获悉,华为公司将发布一款直接对标 ChatGPT 的多模态千亿级大模型产品,名为盘古 Chat。 据介...
OpenAI宣布其新版人工智能模性GPT-4o之后,Anthropic随即宣布其人工智能服务Claude已经正式进驻欧洲市场,并且对应法语、德语...
原本以Project Tailwind为称、能以人工智能汇整不同来源资料的谷歌笔记服务NotebookLM,目前已经将其背后的人工智能模型换成Gemini 1
埃隆・马斯克在 2021 年 8 月举办的 AI Day 活动中,宣布了 Optimus 机器人,时隔将近 2 年时间,目前特斯拉共生产了多少台
在 2023 年中关村论坛人工智能大模型发展论坛中,北京智源人工智能研究院推出了旗下通用分割模型 SegGPT(Segment Everything In
除了公布大型自然语言模型Gemini上线时程,谷歌也同步揭晓新一代TPU v5p,标榜对应可扩展、具弹性布署特性,同时也是谷...
Meta 和微软近日合作推出 Llama 2,这是 Meta 公司的下一代开源大型语言模型,可以免费用于研究和商业用途。 微...
Triton 是一种类似于 Python 的开源编程语言,它可以使没有 CUDA 经验的研究人员顺利编写高效的 GPU 代码(可以理解为简化版 CU
目前大多数 AI 聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联...
▲2023世界人工智能大会 2024世界人工智能大会暨人工智能全球治理高级别会议将于7月4日于上海举行,本届大会将展出AI机器...
在今日举行的 2023 年华为云数字文娱 AI 创新峰会上,华为云全球 Marketing 与销售服务总裁石冀琳表示,华为云将在后续推出盘古
在今日晚间的 2023 雷军年度演讲直播中,除了发布手机、平板、手环等产品外,还有 One More Little Thing 环节 —— 铁蛋 2
OpenAI的ChatGPT应用程序已经在移动设备上使用了一段时间,微软最近推出了Copilot应用程序,该应用程序也由OpenAI的GPT大型语...
YouTube 官宣推出音乐 AI 孵化器,环球音乐集团是其首个合作伙伴。仅 2023 年,YouTube 上与 AI 工具相关的视频观看次数就超过
除了ChatGPT这样的AI聊天机器人,AI绘图也是很红的另一个应用范围。 前几个月大家是玩Stable-Diffusion、Lora这样的生成工具,最近最