Sora AI:OpenAI 的文本转视频模型详解
Sora AI 曾一度成为美国下载量最高的应用程序,持续了大约一个月。之后,OpenAI 将其关闭。这款应用允许用户输入一句话,然后生成一分钟的同步电影级视频,它一度登上榜首,引发了大量名人深度伪造视频和吉卜力工作室的仿冒作品,然后在 2026 年 4 月悄然关闭。人们不禁要问:如此受欢迎的应用怎么会就此消失?
简而言之,就是钱。更详细的解释更有价值,尤其如果你需要付费购买或出售人工智能工具的话。Sora AI 的价值从来不在于免费的社交信息流,而在于你按秒租用的计算资源,用于生成视频。这种区别才是问题的关键,也引出了大多数文章都忽略的一点:人们究竟是如何为这些工具付费的,以及为什么支付机制的重要性开始与模型本身不相上下。
什么是 Sora AI 以及视频模型的工作原理
Sora AI 是 OpenAI 开发的一款文本转视频模型。你只需输入一段文本提示,它就能生成一段短视频。这就是 AI 视频生成的核心理念。其底层架构是一个扩散变换器(Diffusion Transformer),与现代 AI 图像工具同属一个庞大的变换器家族,只不过 Sora AI 的训练对象是视频和时间。
OpenAI 于 2024 年 2 月发布了 Sora 的预览版,其中包含一些演示片段,随后于 2024 年 12 月在 ChatGPT 中发布了第一个版本。早期的 Sora 可以生成时长约一分钟的视频片段,而且令人惊讶的是,它无需任何显式训练就能大致理解 3D 空间和镜头运动。没有人给它编写过视差效果。它通过观看足够多的例子,学习到移动镜头会改变所看到的内容——就像孩子学习视觉感知一样。
这也是输出结果参差不齐的原因。这个模型可以渲染出逼真的街景,却也能让人穿墙而过,因为它从未学习过物理规则,而只是学习了模式。记住这一点很重要:当一段视频看起来完美无瑕时,说明它根本不懂重力。

如何使用 Sora 2 创建 AI 视频
真正爆红的版本是 Sora 2,它于 2025 年 9 月 30 日发布,同时发布的还有 iOS 应用。这才是真正的飞跃,值得一看用它创作究竟是什么样子。
音频、物理效果和电影级镜头同步
《索拉2》加入了音效。对话、脚步声和背景噪音现在与画面同步,不再是需要玩家自行配乐的无声片段。最显著的升级是动作的逼真度,物体碰撞和坠落的动画效果大多经得起时间的考验。新模型还能将多个摄像机角度串联起来,使短片拥有了初代作品所缺乏的电影质感。这就像是动态明信片和电影剪辑之间的区别。
客串、混音和剪辑
这款应用最引人注目的社交功能是 Cameo:只需录制一次,即可将自己的形象添加到任何生成的场景中。比起原始视频质量,这项功能才是这款应用迅速走红的关键。此外,它还配备了一套简易的编辑工具。Remix 功能允许用户根据新的提示调整现有视频片段;Re-cut 功能可以重新生成单个片段;Loop 功能可以将视频片段循环播放;Blend 功能则可以将两个视频合并。所有这些功能都不需要任何剪辑技巧,而这正是这款应用的精髓所在。
编写提示:文本和图像转视频
能否获得理想的效果取决于文本提示。该模型鼓励具体细节。“一只狗”只能提供声音。“一只湿漉漉的金毛犬在午后阳光的逆光下,用50mm镜头拍摄,慢动作甩掉身上的水珠”则能提供更有用的信息。描述拍摄对象、动作、光线和拍摄设备。你还可以上传图片,让Sora将其动画化——图像转视频模式可以将静态图像转换成几秒钟的动态画面,使其兼具动态图像生成器的功能。技巧的关键在于学习如何像导演撰写拍摄笔记那样编写提示。
默认情况下,每个视频片段都带有可见的水印和C2PA元数据,表明其由人工智能生成。这两点在后续工作中都至关重要。
Sora AI 应用为什么被关闭了?
OpenAI于2026年3月24日宣布停止运营,并于4月26日关闭了该应用程序。技术本身是成功的,但商业模式失败了。
据报道,以消费级规模运行 Sora 的计算成本约为每天一百万美元。相比之下, 据 TechCrunch 报道,该应用在其整个生命周期内仅通过应用内购买获得了约 140 万美元的收入。用户数量峰值接近百万,但在上线几周内便跌破五十万,这是典型的“新鲜感曲线”。此外,与迪士尼签订的价值约十亿美元的授权协议(涵盖 200 多个角色的使用权)也随着该应用的下线而终止。
| 日期 | 发生了什么 |
|---|---|
| 2024年2月 | Sora公开预览 |
| 2024年12月 | 第一个版本已在 ChatGPT 中发布 |
| 2025年9月30日 | Sora 2 和 iOS 应用发布 |
| 2026年3月24日 | 宣布停止运营 |
| 2026年4月26日 | 应用程序关闭 |
OpenAI并没有放弃这项技术,但这一点往往被人们忽略。这项功能仍然保留在ChatGPT和企业级产品中,Sora模型本身也仍然可以通过API供开发者使用。OpenAI终止的是基于Sora AI构建的免费浏览社交应用——这是成本最高、利润最低的交付方式。对于任何销售AI服务的人来说,这都是一个显而易见的教训:价值体现在人们为输出付费的地方,而不是他们免费浏览的地方。
Sora AI 的费用包括:订阅费、积分和 API。
资金通过三种方式流入 Sora,而这些差异可以解释付费人工智能的一般运作方式。
| 通道 | 你将获得什么 | 价格 |
|---|---|---|
| ChatGPT Plus | Sora 在聊天中,标准世代 | 每月 20 美元 |
| ChatGPT Pro | 更高的限制,更长的高清视频片段 | 每月 200 美元 |
| 积分包(免费档) | 按单个视频付费 | 因包装而异 |
| API,sora-2(720p) | 按视频秒数计费 | 约0.10美元/秒 |
| API,sora-2-pro(1080p) | 按视频秒数计费 | 每秒约 0.30 至 0.50 美元 |
大多数普通用户从未直接付费。Sora 与 ChatGPT 订阅捆绑销售,因此它利用了用户每月在聊天机器人上已经花费的 20 美元或 200 美元。这种捆绑销售至关重要,因为 OpenAI 的真正引擎是订阅:约 5000 万付费用户,估计每年 250 亿美元的经常性收入,以及约 9 亿周活跃用户。相比之下,Sora 应用的 140 万美元收入简直微不足道。
最有趣的部分是 API。在这里,你无需购买套餐。你按生成的视频秒数付费, 根据 OpenAI 的 API 文档(截至 2026),720p 分辨率下每秒大约 10 美分,而 1080p 专业输出的价格是其三到五倍。一个 10 秒的视频片段最低收费 1 美元。这是按使用量计费的计算方式——就像你为云服务器或电力付费一样。你购买的是使用量,而不是席位或套餐。对于大量运行 Sora 的开发者或创作者来说,按秒计费才是真正的产品,而且这种模式从未改变。
想想这个计量表意味着什么。一个每天渲染一百个视频的工作室,其账单会像水电费一样,随着产量增加而增长。而一个每月只制作一个视频的业余爱好者,只需支付几美分。同样的模式适用于两者,因为价格是按计算量计算的,而不是按用户数量计算的。从语言模型到图像生成器,几乎所有严肃的人工智能计费方式都在趋向于这种模式:按使用量付费,以令牌、秒或百万像素为单位计量。固定月费套餐只是一个友好的包装。按使用量计费才是其核心,我敢打赌,未来十年人工智能收入的真正来源就在于此。
Sora 2 与其他 AI 视频生成器的比较
Sora AI 曾一度成为新闻焦点,但它并非孤军奋战,围绕它的市场蕴藏着巨大的商机。 据《财富商业洞察》报道,人工智能视频生成器市场在 2025 年的市值约为 7.16 亿美元,预计到 2025 年将达到约 8.47 亿美元,年增长率接近 19%。其竞争对手Runway在 2025 年初完成了一轮 3.15 亿美元的融资,估值达到 53 亿美元。这可不是演示,而是一个严肃的行业。
| 工具 | 制造商 | 同步音频 | 使用权 | 定价模式 |
|---|---|---|---|---|
| 索拉2 | OpenAI | 是的 | ChatGPT,API | 订阅 + 按秒 |
| Veo 3 | 谷歌 | 是的 | Gemini,Vertex AI | 订阅 + 按秒 |
| 跑道 | 跑道 | 有限的 | 网页、应用程序 | 积分,订阅 |
| 克林 | 快手 | 是的 | 网页、应用程序 | 积分,订阅 |
竞争对手的情况与 Sora 的模式类似。谷歌的 Veo 通过 Gemini 订阅和 Vertex AI 按秒计费,价格与 Sora 的定价模式大致相同。Kling 和 Runway 则采用积分包模式,用户预先购买一定数量的计算周期,用完后再使用。抛开品牌差异,你会发现它们本质上只是两种计费方式的比较:预付费积分或按需付费,而它们的功能模式大同小异。选择 Sora 而不是 Veo 或 Kling,你选择的是一个生态系统和一种付费模式,而不是一种截然不同的功能。质量每隔几个月就会发生飞跃式增长,但价格结构却不会。

使用稳定币支付人工智能视频工具的费用
加密货币的关联性在这里就不再是牵强附会,而是显而易见了。再看看这些人工智能工具的收费方式:每次收费金额较小,收费频率高,而且面向全球用户。这本身就是一个支付问题,而这恰恰是稳定币能够很好地解决的问题。
为什么稳定币适合按量计费的人工智能计费方式
每秒 10 美分的 API 调用就是一笔微支付。信用卡网络通常不喜欢微支付,因为固定费用会吞噬低于 1 美元的交易。跨境的定期订阅还会增加货币转换和支付失败带来的额外成本。稳定币,即与美元挂钩、链上结算的代币,可以规避这些问题。结算成本低廉、近乎即时,而且无论用户身处俄亥俄州还是拉各斯,结算方式都相同。这不再是纸上谈兵。Stripe 已于 2025 年 10 月推出用于订阅的稳定币支付,允许企业像收取信用卡账单一样收取 USDC 定期费用。相关基础设施正在建设中。
创作者收益和全球访问权限
另一半的重点在于资金的流出,而不仅仅是流入。人工智能视频属于创作者经济,创作者遍布全球,包括那些支付渠道薄弱或支付需要一周时间的地方。使用稳定币支付给创作者,无论当地银行如何运作,款项都能在几分钟内以美元形式到账。对于一个每月向成千上万小型创作者支付报酬的平台来说,仅手续费和货币兑换方面的节省就足以决定整个模式是否可行。这背后的规模已不再小:稳定币市值在2020年突破3230亿美元, 据Visa估计,到2025年,稳定币的总交易量将达到33万亿美元左右。当人工智能按量计费和全球创作者支付都指向同一支付渠道时,这条渠道看起来不再像是一个加密货币实验,而更像是一个基础设施。如今,想要接受人工智能工具加密货币支付的商家无需接触任何支付处理机构即可完成支付。
Sora AI的风险:深度伪造、版权、水印
这一切都不干净。Sora AI 的水印和 C2PA 标签原本是为了标记 AI 生成的视频片段,但水印去除工具在发布一周内就出现了。版权默认设置是“选择退出”,而非“选择加入”,因此 Sora 可以随意复制受保护的角色和风格,直到版权所有者提出异议。吉卜力工作室和史克威尔艾尼克斯都要求删除相关内容。AI 生成的图像或视频看起来逼真,却能去除自身的水印,这仍然是业界尚未解决的问题,只是被贴上了标签而已。
索拉的故事真正告诉了你什么
Sora 应用的失败原因很平淡:运营成本超过了收益。技术本身从来都不是问题。免费视频流的背后,隐藏着一个一旦按秒收费就能真正盈利的模式。人工智能视频的持久价值在于按秒计费,而按秒计费首先是一个计费问题,其次才是创意问题。所以,如果你打算按秒付费使用人工智能,或者通过开发人工智能获得报酬,那就问问自己,哪条渠道能以如此小额、如此快速、如此全球化的方式转移资金?目前,诚实的答案并非信用卡。那么,稳定币何时会成为默认选项呢?