视觉检测领先者
全国咨询热线:13812953225

Sora到底有多炸裂 四款视频大模型5大场景测评!

发布时间:2024-02-23 20:40:29 人气: 来源:下载雷火电竞亚洲先驱
案例介绍

  ChatGPT,开启了大模型领域的“竞速跑”模式。2024年2月15日,随视频生成模型Sora的横空出世,OpenAI再度掀起热潮。

  Sora将视频生成内容拉到了一个全新的高度,逼真的视频效果刷新了社会对AI能力边界的认知。它的问世,就如同一枚深水炸弹,瞬间引爆全球科学技术圈。

  不少业内人士直言,Sora的到来标志着一次质的飞跃。英国皇家工程院国际院士、欧洲科学院院士许彬(Pan Hui)在接受《每日经济新闻》记者正常采访时表示,“目前Sora在视频生成品质上面绝对是无可匹敌的。Sora生成的视频可以从小特写切大全景,变换不同的机位。”

  值得注意的是,文生视频大模型并不是一条全新的赛道。为了更直观地呈现Sora的文生视频能力,《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,对Pika、Runway和PixVerse的文生视频能力进行了测试,并将生成结果与Sora视频进行了对比,测试场景涉及人物特写、电影预告片等5类。

  对比结果为,Sora在生成长度、连贯性和视觉细节方面表现出明显的优势,几乎实现了“降维打击”。

  从ChatGPT到Sora,为何OpenAI能连续打造出“王炸级神器”?

  加州大学伯克利分校计算机科学 PHD、知乎作者SIY.Z分析称,“如果必须用一个词来展现OpenAI最核心的技术,我觉得是scaling law——即怎么样保证模型越大,数据越多,效果就越好。”从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI或许已经打造出了一条自己的AGI通用技术路线大场景实测:

  2月15日,OpenAI正式对外发布了首款文生视频大模型Sora。演示视频一经发布迅速引发业内热议,部分网友更是哀嚎,“要失业了”。

  世界走进了人类社会。我愿意将其类比为,开启了AI发展的牛顿时代。”Sora的文生视频能力到底有何突出之处?

  由于Sora并未开放测试账号,因此《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,在街头、卡通动画、人物特写、动物特写以及电影预告片这5大场景下对同类模型Runway、Pika和Pixverse进行了效果测试。同时,将OpenAI官方公布的Sora视频与前述3个文生视频大模型进行了对比。

  英国皇家工程院国际院士、欧洲科学院院士许彬(Pan Hui)在接受《每日经济新闻》记者正常采访时也表示,“Sora的核心优势可以总结为,生成高清晰度的长视频。不论是清晰度,还是时长,目前都是第一。

  不过,需要说明的是,本次效果对比仅基于5个场景下的提示词,场景和提示词的数量均较为有限,并且不同模型生成的结果有几率存在随机性。

  在与Runway、Pika和PixVerse的对比中,Sora生成的视频平均长度将近16秒,最长达到20秒,而相比之下,其他三个模型生成的视频长度均在3~4秒左右

  许彬表示,“Sora能改变视频的视角。Sora生成的视频,可以像一镜到底一样,从小特写切大全景,变换不同的机位,但是保证画面中的人物/物品。同时,(Sora生成的视频中)物体的一致性很强。

  此外,每经记者看出,Sora生成的视频视觉细节丰富,物体纹理清晰,色彩逼真,整体视频质量更高。相比之下,其他模型生成的视频通常显得模糊、细节不足、色彩不那么鲜艳。

  例如,在生成的“女人眨眼睛”的视频中,Sora对女性眼部的特写十分到位,从眉毛、睫毛、眼皮褶皱、眼袋、卧蚕和细纹的细节来看,已达到以假乱真的效果。

  从上述5大不同场景的呈现效果显而易见,Sora明显更能够很好的满足不同创作者的需求,无论是创作科幻场景、动画人物,还是模拟真实场景,都可以轻松实现。

  研报称,Sora的核心技术是基于OpenAI在自然语言处理和图像生成方面的深厚积累,与Runway、Pika等相比,Sora在视频生成的真实感、细节表现上均具标志性价值。AI视频生成虽不是新事,但Sora的推出有望推高AI多模态的热度,可关注AI多模态应用塑造数字内容生产与交互新范式,赋能视觉行业,从文字、3D生成、动画、电影、图片、视频、剧集等方面,有望带来内容消费市场的繁荣发展。从GPT到Sora,OpenAI打通AGI技术栈

  从Sora身上,能够正常的看到OpenAI沿袭了过往大语言模型训练的许多成功经验。

  OpenAI的文本模型,例如GPT-4,就是采用的Transformer模型,传统的文本到视频模型通常是扩散模型(Diffusion Model),Sora采用的DiT架构则融合了GPT和传统的扩散模型架构。

  优化的DiT架构的工作速度比UNet(传统文本到视频模型的技术路线)快得多

  Patch能够理解为Sora的基本单元,Patch是视频的片段,一个视频能够理解不同Patch按照一定序列组织起来的。就像GPT-4 的基本单元是Token,而Token是文字的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,能处理一系列的Patch,并预测出序列中的下一个Patch。

  知乎“如果必须用一个词来展现OpenAI最核心的技术,我觉得是scaling law——即怎么样保证模型越大,数据越多,效果就越好。一句话概括 Sora 的贡献,便是在足量的数据,优质的标注,灵活的编码下,scaling law在transformer + diffusion model的架构上继续成立。”在他看来,数据、标注、编码、底层架构都是来自于此前大模型的成功经验。谢赛宁在X平台也曾提到, Sora有两个关键点尚未被提及,一是关于训练数据的来源和构建,二是关于(自回归的)长视频生成相关的技术细节。

  可以说,对于目前all in AGI的OpenAI来说,从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI或许已经打造出了一条自己的AGI通用技术路线。

  值得注意的是,建立在此前成功经验之上的Sora路线,可能会成为接下来的文生视频模型新范式。早在1月,一位前阿里的AI专家在X平台上表示,“我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。”

  的OpenAI在AI初创公司中能够说是断层领先。之所以其产品一经发布,就能让行业震惊于其超强的迭代能力,恐怕也离不开背后的烧钱。

  曼还瞄准了半导体领域。据报道,阿尔特曼正与潜在投资者、半导体预计将融资7万亿美元打造芯片帝国。在技术和资金的加持下,OpenAI在接下来的时间里,可能还将继续遥遥领先。

  、Salesforce等。Pika的估值目前近2亿美元,这家仅有四人的初创公司很有豪华

  开发到社会化媒体、影响力营销甚至教育科技等领域都将受一定的影响。“最直接的是视频制作领域。

  他同时和记者说,Sora和其他类似的AI视频模型在多个行业都显示出巨大的商业潜力和市场需求。“包括媒体和娱乐、

  、金融服务与保险、零售以及医疗保健等行业将极大受益于生成式AI的进步。这些技术的应用不但可以优化营销和销售活动,改善客户服务,还能加强产品研究开发和风险管理。”许彬同时表示,“生成式AI在这些领域的变革潜力已表明了广泛的市场需求和跨行业的巨大经济价值,可能为各个行业创造2.6万亿至4.4万亿美元的价值。”

  二级市场的腥风血雨已能印证这一说法。Sora发布的次日,美国电脑软件公司Adobe股价暴跌超7%;美国图片库、图片素材、图片音乐和编辑工具供应商Shutterstock跌超5%;几周前发布了“文生视频”工具Lumiere的谷歌母公司股价下挫1.58%。三家公司一天内就合计蒸发近480亿美元的市值。

  为了减轻这些技术可能带来的风险,建立完整的道德准则、实施严格的数据隐私措施,以及确保AI模型开发和使用的透明度至关重要。

  随着AI的发展,各国也在致力于加强对AI的监管。早在去年10月,美国白宫首次发布针对AI的行政令,将对AI研发和应用制定全面的监管标准。去年11月,中国、美国、英国、欧盟等多方代表在首届全球人工智能

  OpenAI的每一次动作几乎都会给科技圈带来一次巨震。尽管文生视频模型已非首次发表,但毫无疑问,Sora带来了一次质的飞跃,在时长、连贯性和视觉细节等方面的突破都是前所未有的。

  而令记者感到惊讶的是,在查阅相关的技术解读时发现,Sora从底层架构上来说并非是全新的技术,例如,DiT架构和Patch的论文都是去年就发表的。从Sora身上,也能够正常的看到OpenAI过往大语言模型训练的成功经验。然而,只有OpenAI从旧架构中实现了新的突破,这或许意味着,无论是OpenAI此公司,还是AI算法本身,它们的边界还远不止于此。