为什么openAI的sora，至今没有开放？-有趣的事

2024-11-19 阅读 130

更新于 2024年11月21日

现在回看的话，OpenAI 今年的很多发布其实都是半成品，甚至有 fake it till make it 的嫌疑。Sora 的发布是为了狙击 Gemini，o1 的发布是为了融资。

按照 OpenAI 官方的说法，Sora 一方面在做红队测试，另一方面在和艺术家合作，听取艺术家的反馈。训练数据的版权也可以能有问题，之前有人提过多次。

所谓红队测试（Red teaming），就是由专家模拟潜在攻击并利用系统中的漏洞，以确保系统的稳健性和安全性，为更广泛的发布做好准备。主要是为了发现可能被恶意用户利用的弱点，评估 Sora 识别和响应威胁的能力，增强系统抵御潜在风险的能力。

除了红队测试，OpenAI 还与视觉艺术家、设计师和电影制作人合作，收集 Sora 在创意环境中的性能和可用性反馈。艺术家探索 Sora 的功能，从而引导进一步的开发，确保该工具满足创意专业人士的需求。

不过也并不意味着 OpenAI 就放弃了 Sora，隔三岔五的还是在放出一些新的视频。

而且之前有个说法，OpenAI 不放出 Sora 是大选的原因，担心伪造的视频干扰大选。现在大选结束了，可以期待一下 Sora 会不会有新进展。

000

就在大家都已经淡忘不再提起Sora的时候， Sora却不甘寂寞，在前一段发布了与拥有15年电影电视经验的伦敦数字艺术家Jon Uriarte合作的最新视频。

0在这个视频里，Sora帮助Jon Uriarte实现了他对于“塑料椅子上飞翔的人”这一主题的想象。

发布这一篇短片，Sora想要展示它的强大之处在于它能够在艺术家对具体外观有明确要求的同时，还能带来超出预期的创意。Jon Uriarte形容使用Sora就像在写作或做白日梦，创意如流水般自然涌现，能够创造出既有机又精确的视觉盛宴！

那么你觉得目前Sora展示出的效果，与目前众多的AI视频工具比，有让人更加眼前一亮的感觉吗？

一、回顾让我们现在再回过头来看Sora当时的发布，真的是山姆.奥特曼的商业决策之举，精心挑选的时机直接狙击竞争对手谷歌的发布会新闻，硬是把当时Gemini的发布更新压的一点声音都没有。

而在2024年的2月中旬，Sora虽然没有直接开源，但是发布的论文索引和思路，让全球AI大模型厂家确认了DIT模型架构的潜力和发展方向。

但是在Sora公布后长达半年多的时间内，除了有限几个Sora合作的艺术家，能够发布部分通过Sora制作的短视频外，其他人到目前为止，都未能一览Sora的庐山真面目。

而在4月份底的时候，多媒体制作公司Shy Kids打造的短片《Air Head（气球人）》引发了关于Sora实际能力的讨论。

尽管这个短片因其完整叙事和高质量视觉效果受到大家的关注，但在X上，有国外博主指出，Sora在制作过程中使用了大量转描技术和人工后期特效，而非完全依赖AI生成。这一“打假”帖子在社交媒体上获得了超过190万的浏览量。

然后过了不久，Shy Kids团队在接受采访时透露，他们在使用Sora时遇到了诸多挑战，包括角色一致性、镜头渲染时间长、摄像机运动理解不足等问题。为了保持画面一致性，团队不得不在文本提示中详细描述对象特征，并通过后期制作工具如After Effects进行大量编辑。Sora在分辨率提升和镜头速度调整方面也存在局限，导致团队需要投入大量人工后期工作。

也许是这次导演团队的“背刺”行为，让Sora在很长一段时间内，都没有再次发布和艺术家合作的新的短片。

正当大家被Sora带来的震撼感慢慢降低的时候。

中国AI视频模型公司的机会来了。

6月6日，快手发布可灵AI，并且在发布会当天就开放了内测，在短短一个月的时间内就收到几十万内测申请，而大量通过内测创作者直接体验到了Dit模型的神奇之处。

甚至连国外众多博主，都通过各种途径尝试获取使用中国AI视频工具的办法。

国内的AI大模型厂商仿佛看到了曙光，奋起直追，在AI视频这一个细分领域投入资源，不断发布新的产品，不仅获得了国人的普遍赞许，更是在外网掀起了一阵使用中国AI视频工具的狂潮。

也正是在Sora迟迟不对外公布的这半年内，包括LUMA Dream machine,Runway Gen-3,Vidu，Pixverse,清影，通义万相，海螺AI，即梦等等AI工具，都在不断推出和更新各自的最新模型。

甚至AI绘画工具巨头MidJourney，也发布消息说可能在马上要更新的V7模型中，会加入视频生成功能。

群雄并起，逐鹿中原。

现在再看Sora,已经没有年初的震撼感了。

二、近忧而除了技术上的领先地位存疑，OpenAI内部由于去年宫斗戏的影响，导致内部高管不断离职的情况，也许也大大影响了Sora的对外开放时间。

要知道，就在十月初，Sora负责人Tim Brooks在X上发布信息宣布离职，前往竞争对手谷歌 DeepMind。

这对于Sora的产品研发来说，又是一记暴击。

Tim Brooks 是 OpenAI Sora 项目的研究主管之一，他博士毕业于加州大学伯克利分校的「伯克利人工智能研究所」（BAIR），他与 Sora 项目的另一位负责人 William (Bill) Peebles 师出同门。

在博士就读期间，他提出了 InstructPix2Pix，并在谷歌为 Pixel 手机摄像头开发 AI 算法，在英伟达研究视频生成模型。

博士毕业后，Tim Brooks 加入 OpenAI，参与了 GPT-4 等多项研究，并在 2023 年 1 月与 Peebles 共同启动了 Sora 项目——他也是 Sora 技术报告的第一作者。

而据消息透露，Brooks 的离开不仅仅是受到 OpenAI 近期高层离职风潮的影响，更与 Sora 项目的困境有关。

The Information 曾报道，Sora 存在严重的技术问题，难以与 Luma、Stability 和 Runway 等竞争对手抗衡。

据爆料，2 月份的原版 Sora 系统制作 1 分钟的视频短片需要 10 分钟的处理时间。这几个月来，提升视频生成速度一直是 Sora 团队的工作重心，但至今仍未看到 Sora 发布的任何迹象。

与此同时，Sora 的竞争对手不仅越来越多，而且越来越强，抢占着 Sora 尚未进入的市场。

Tim Brooks 的下一站谷歌也有自己的视频生成模型 Veo，并且很快就会集成到 YouTube 短片应用中。

结语在内忧外患之下，Sora是否还能顺利面世，对比众多AI模型，到底还有没有什么独特的优势？

让我们拭目以待。

我是德里克文，一个对AI视频，AI绘画，人工智能有强烈兴趣，从业多年的设计师！目前也在进行AI时代的创业探索，如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

Sora作为首个文生视频模型的确是承载了很多人的期望，所以才会一直有人在期待着它能正式开放。

但从年初等到了岁末，始终还没它的消息；或许是Open AI还没找到那把可以确保安全的钥匙吧。

Sora横空出世以来，后继者爆发成山，好比先是有引起海外科技圈一阵骚动的快手可灵，再有Dream Machine的有备而来，但sora还从未真正全面开放。

不少人都调侃它成了「期货」。其实早在2月底，彭博社就曾报道，考虑到今年美国大选，OpenAI希望竭力避免安全风险。那越临近大选日，自然就越要避免衍生问题的发生。今天提这个问题，该不会是因为今天是美国大选投票日吧~

还有一个原因，就是当时的Sora在技术上尚未准备好发布。

OpenAI担心Sora可能会被用来干坏事，所以他们得先搞清楚怎么防止这些风险，才能让更多人用。

确保安全是Sora公开的关键。而且近期有关于“Sora”的骗局在网络上流传，一些不法分子利用OpenAI发布的文生视频模型Sora的热度，声称有内测资格或提供相关服务，以此来骗取钱财。

然而，根据OpenAI的官方声明，Sora目前尚未对外开放使用，只有少数的测试者和合作方可以使用。

但如果现在对AI文生视频有较强的需求，其他AI视频大模型同样可以是不错的选择。

【可灵大模型】它有强大的视频生成能力，让用户可以轻松高效地完成艺术视频创作。除了大幅度的合理运动，即采用3D时空联合注意力机制，能够更好地建模复杂时空运动，生成较大幅度运动的视频内容，同时能够符合运动规律。

现在，它不仅支持文生视频，还有支持图生视频和视频续写，满足用户不同的创作需求。

【剪辑魔法师】这是最早我知道的一款可以文字转视频的AI剪辑工具，采用AI智能技术，用文字描述就可以快速生成视频，操作简单，适合小白快速上手剪辑，功能较多，还有手机端App。

界面简洁，功能分类也很清晰，转换完成后是一段19s的短视频，音乐和画面搭配得很契合，自动配上字幕，可以根据自己想要的尺寸和画面底色进行简单地调整后，直接导出发布即可。

还有各种场景的视频模板可以自行挑选，从婚礼现场、毕业典礼、生日派对到企业年会，都可以完美适配。

【智谱清影】这是智谱清言大模型里新出的一个AI文生视频功能。可以看到它的主界面其实是在智谱清言大模型的基础上设计增加的，左边还是智谱清言大模型的基础功能AI画图、对话、长文档解读、数据分析；

右边则是AI生成视频的操作指引，它支持“文生视频”和“图生视频”两种形式，下方是关于视频的灵感描述和风格选项。

输入关键词“一只叼着鱼的橘猫在海边散步，背景是有夕阳的大海”；个人感觉清影的色彩上会比其他视频大模型要更浓郁和明艳，它还支持“制作同款”，可以更好地帮助大家入门。

最后，即使将来Sora对外开放使用，公众也应该注意保护自己的数据和隐私。在使用任何AI模型时，用户都需要了解并同意相关的数据使用协议和隐私政策，确保自己的个人信息不被滥用或泄露。

我是吗喽，可以的话点点关注，我们一起期待sora的开放吧！

开放了你也用不起

按照1080x720的分辨率，77万个像素点

显卡要在77万个像素点上进行计算工作，注意，这只是一帧的数字，30帧的视频也就是1秒钟要有30张这样的图片，也就是2330万个像素点

就你给的那20刀月租的三瓜俩枣，根本就是亏钱的买卖

让你掏几千块上万块搞一个几秒钟的视频，你普通用户舍得掏这个钱吗？

那既然不舍得，何必开放呢？

之前我们做类似的项目的时候计算过，也是按照帧数来计算，按照stable diffussion10块钱1000张图来算，平均我们一个设备单日的训练就要烧掉几万块钱。假设只使用stability Ai的情况下

这是一个烧钱的买卖，而目标用户也从来就都不是普通人

既然都不是你，何必开放给你用呢？

也没必要进行定价，有价总会有人舍得出钱试一下，就这么试一下，得需要一张A100在那里跑吧？

这在我看来都是糟践东西，更何况是他们。

从OpenAI的官网来看，Sora还是处于一个期货状态，甚至官方的网站从年前就一直没有变过，还是下面这个女人的动态视频。看起来就是Sora实际的产能不足，导致没有办法大规模的公开应用了。

我们考虑下OpenAI的时间线，不难发现，OpenAI在Sora之后，还是推出了GPT-o1，o1mini、SearchGPT等产品的。但是这些产品本身经过大家的拆解，好像没有特别的强，比如o1虽然有快慢思考之分，但更像是利用了相关的数据在GPT4上进行训练，而不是我们期待的GPT5的版本。

SeachGPT就是将搜索技术和GPT进行了结合，而这门技术并不是特别新鲜的内容。AI搜索这个赛道，国外有perplexity、国内有秘塔，天工，甚至只要是一个大模型就带着web检索的功能。所以说，在技术上，OpenAI没有更多的优势。

就算我们从仅有的技术报告上来看，Sora是一个基于Diffusion的模型可以生成视频。截止到现在，利用Diffusion结构做文生视频的，像runway、pika、国内的可灵、智谱等等公司都推出了自己的产品，整体效果来说，可灵应该是最好的，也好于sora放出的预览视频。

因此，我大胆的猜测，openAI本身的算力有限，之前有提到过GPT5好像训练失败了，所以绝大多数的算力都投入到了训练或者重新训练GPT5的上面。而Sora的技术路线，和GPT的又不太一样，要是训练或者大规模部署这个模型，需要的GPU太多，可能支持不起现有的服务了。

而SearchGPT、GPT-o1，这种可以借助之前训练好的模型，算力缺口也不太多，所以能正常更新。而Sora这种需要额外的GPU，算力不足，则本着能省则省的原则，就不大规模对外开放了。或许等GPT5训练完成后，会开放Sora。