原因是它已经能够模拟真实物理世界的运动,比如物体的运动和交互。不过,仅仅这种程度的提升,并不算惊人。据OpenAI官方报道,Sora的革命性主要体现在以下几点。首先是持续时间。作为通用的 Vincent 视频模型,它可以根据用户提供的文本描述生成第二视频。不仅质量高,而且能够更完整、准确地还原用户输入的提示,即提示词。其次,是场景复杂度和人物生成水平的突破。到目前为止,Sora 已经能够生成包含多个角色、的精确主题的场景。而且镜头语言也开始变得复杂,这使得视频本身开始具备一定的叙事功能,而这正是当前短视频领域所需要的。第三,除了从文本生成视频之外,