为什么openAI的sora,至今没有开放?

2024-11-19 阅读 73
更新于 2024年11月21日
现在回看的话,OpenAI 今年的很多发布其实都是半成品,甚至有 fake it till make it 的嫌疑。Sora 的发布是为了狙击 Gemini,o1 的发布是为了融资。
按照 OpenAI 官方的说法,Sora 一方面在做红队测试,另一方面在和艺术家合作,听取艺术家的反馈。训练数据的版权也可以能有问题,之前有人提过多次。
所谓红队测试(Red teaming),就是由专家模拟潜在攻击并利用系统中的漏洞,以确保系统的稳健性和安全性,为更广泛的发布做好准备。主要是为了发现可能被恶意用户利用的弱点,评估 Sora 识别和响应威胁的能力,增强系统抵御潜在风险的能力。
除了红队测试,OpenAI 还与视觉艺术家、设计师和电影制作人合作,收集 Sora 在创意环境中的性能和可用性反馈。艺术家探索 Sora 的功能,从而引导进一步的开发,确保该工具满足创意专业人士的需求。
不过也并不意味着 OpenAI 就放弃了 Sora,隔三岔五的还是在放出一些新的视频。
而且之前有个说法,OpenAI 不放出 Sora 是大选的原因,担心伪造的视频干扰大选。现在大选结束了,可以期待一下 Sora 会不会有新进展。
000
就在大家都已经淡忘不再提起Sora的时候, Sora却不甘寂寞,在前一段发布了与拥有15年电影电视经验的伦敦数字艺术家Jon Uriarte合作的最新视频。
0在这个视频里,Sora帮助Jon Uriarte实现了他对于“塑料椅子上飞翔的人”这一主题的想象。
发布这一篇短片,Sora想要展示它的强大之处在于它能够在艺术家对具体外观有明确要求的同时,还能带来超出预期的创意。Jon Uriarte形容使用Sora就像在写作或做白日梦,创意如流水般自然涌现,能够创造出既有机又精确的视觉盛宴!
那么你觉得目前Sora展示出的效果,与目前众多的AI视频工具比,有让人更加眼前一亮的感觉吗?
一、回顾让我们现在再回过头来看Sora当时的发布,真的是山姆.奥特曼的商业决策之举,精心挑选的时机直接狙击竞争对手谷歌的发布会新闻,硬是把当时Gemini的发布更新压的一点声音都没有。
而在2024年的2月中旬,Sora虽然没有直接开源,但是发布的论文索引和思路,让全球AI大模型厂家确认了DIT模型架构的潜力和发展方向。
但是在Sora公布后长达半年多的时间内,除了有限几个Sora合作的艺术家,能够发布部分通过Sora制作的短视频外,其他人到目前为止,都未能一览Sora的庐山真面目。
而在4月份底的时候,多媒体制作公司Shy Kids打造的短片《Air Head(气球人)》引发了关于Sora实际能力的讨论。
尽管这个短片因其完整叙事和高质量视觉效果受到大家的关注,但在X上,有国外博主指出,Sora在制作过程中使用了大量转描技术和人工后期特效,而非完全依赖AI生成。这一“打假”帖子在社交媒体上获得了超过190万的浏览量。
然后过了不久,Shy Kids团队在接受采访时透露,他们在使用Sora时遇到了诸多挑战,包括角色一致性、镜头渲染时间长、摄像机运动理解不足等问题。为了保持画面一致性,团队不得不在文本提示中详细描述对象特征,并通过后期制作工具如After Effects进行大量编辑。Sora在分辨率提升和镜头速度调整方面也存在局限,导致团队需要投入大量人工后期工作。
也许是这次导演团队的“背刺”行为,让Sora在很长一段时间内,都没有再次发布和艺术家合作的新的短片。
正当大家被Sora带来的震撼感慢慢降低的时候。
中国AI视频模型公司的机会来了。
6月6日,快手发布可灵AI,并且在发布会当天就开放了内测,在短短一个月的时间内就收到几十万内测申请,而大量通过内测创作者直接体验到了Dit模型的神奇之处。
甚至连国外众多博主,都通过各种途径尝试获取使用中国AI视频工具的办法。
国内的AI大模型厂商仿佛看到了曙光,奋起直追,在AI视频这一个细分领域投入资源,不断发布新的产品,不仅获得了国人的普遍赞许,更是在外网掀起了一阵使用中国AI视频工具的狂潮。
也正是在Sora迟迟不对外公布的这半年内,包括LUMA Dream machine,Runway Gen-3,Vidu,Pixverse,清影,通义万相,海螺AI,即梦等等AI工具,都在不断推出和更新各自的最新模型。
甚至AI绘画工具巨头MidJourney,也发布消息说可能在马上要更新的V7模型中,会加入视频生成功能。
群雄并起,逐鹿中原。
现在再看Sora,已经没有年初的震撼感了。
二、近忧而除了技术上的领先地位存疑,OpenAI内部由于去年宫斗戏的影响,导致内部高管不断离职的情况,也许也大大影响了Sora的对外开放时间。
要知道,就在十月初,Sora负责人Tim Brooks在X上发布信息宣布离职,前往竞争对手谷歌 DeepMind。
这对于Sora的产品研发来说,又是一记暴击。
Tim Brooks 是 OpenAI Sora 项目的研究主管之一,他博士毕业于加州大学伯克利分校的「伯克利人工智能研究所」(BAIR),他与 Sora 项目的另一位负责人 William (Bill) Peebles 师出同门。
在博士就读期间,他提出了 InstructPix2Pix,并在谷歌为 Pixel 手机摄像头开发 AI 算法,在英伟达研究视频生成模型。
博士毕业后,Tim Brooks 加入 OpenAI,参与了 GPT-4 等多项研究,并在 2023 年 1 月与 Peebles 共同启动了 Sora 项目——他也是 Sora 技术报告的第一作者。
而据消息透露,Brooks 的离开不仅仅是受到 OpenAI 近期高层离职风潮的影响,更与 Sora 项目的困境有关。
The Information 曾报道,Sora 存在严重的技术问题,难以与 Luma、Stability 和 Runway 等竞争对手抗衡。
据爆料,2 月份的原版 Sora 系统制作 1 分钟的视频短片需要 10 分钟的处理时间。这几个月来,提升视频生成速度一直是 Sora 团队的工作重心,但至今仍未看到 Sora 发布的任何迹象。
与此同时,Sora 的竞争对手不仅越来越多,而且越来越强,抢占着 Sora 尚未进入的市场。
Tim Brooks 的下一站谷歌也有自己的视频生成模型 Veo,并且很快就会集成到 YouTube 短片应用中。
结语在内忧外患之下,Sora是否还能顺利面世,对比众多AI模型,到底还有没有什么独特的优势?
让我们拭目以待。
我是德里克文,一个对AI视频,AI绘画,人工智能有强烈兴趣,从业多年的设计师!目前也在进行AI时代的创业探索,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!
Sora作为首个文生视频模型的确是承载了很多人的期望,所以才会一直有人在期待着它能正式开放。
但从年初等到了岁末,始终还没它的消息;或许是Open AI还没找到那把可以确保安全的钥匙吧。
Sora横空出世以来,后继者爆发成山,好比先是有引起海外科技圈一阵骚动的快手可灵,再有Dream Machine的有备而来,但sora还从未真正全面开放。
不少人都调侃它成了「期货」。其实早在2月底,彭博社就曾报道,考虑到今年美国大选,OpenAI希望竭力避免安全风险。那越临近大选日,自然就越要避免衍生问题的发生。今天提这个问题,该不会是因为今天是美国大选投票日吧~
还有一个原因,就是当时的Sora在技术上尚未准备好发布。
OpenAI担心Sora可能会被用来干坏事,所以他们得先搞清楚怎么防止这些风险,才能让更多人用。
确保安全是Sora公开的关键。而且近期有关于“Sora”的骗局在网络上流传,一些不法分子利用OpenAI发布的文生视频模型Sora的热度,声称有内测资格或提供相关服务,以此来骗取钱财。
然而,根据OpenAI的官方声明,Sora目前尚未对外开放使用,只有少数的测试者和合作方可以使用。
但如果现在对AI文生视频有较强的需求,其他AI视频大模型同样可以是不错的选择。
【可灵大模型】它有强大的视频生成能力,让用户可以轻松高效地完成艺术视频创作。除了大幅度的合理运动,即采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。
现在,它不仅支持文生视频,还有支持图生视频和视频续写,满足用户不同的创作需求。
【剪辑魔法师】这是最早我知道的一款可以文字转视频的AI剪辑工具,采用AI智能技术,用文字描述就可以快速生成视频,操作简单,适合小白快速上手剪辑,功能较多,还有手机端App。
界面简洁,功能分类也很清晰,转换完成后是一段19s的短视频,音乐和画面搭配得很契合,自动配上字幕,可以根据自己想要的尺寸和画面底色进行简单地调整后,直接导出发布即可。
还有各种场景的视频模板可以自行挑选,从婚礼现场、毕业典礼、生日派对到企业年会,都可以完美适配。
【智谱清影】这是智谱清言大模型里新出的一个AI文生视频功能。可以看到它的主界面其实是在智谱清言大模型的基础上设计增加的,左边还是智谱清言大模型的基础功能AI画图、对话、长文档解读、数据分析;