清华团队提出V3D：视频扩散模型是有效的3D生成器｜大模型论文

发布时间：2024-03-17 15:19:05 人气：来源：下载雷火电竞亚洲先驱

自动 3D 生成最近引起了广泛关注。最近的方法大大加快了生成速度，但由于模型容量或 3D 数据有限，生成的物体通常不够精细。在视频扩散模型最新进展的推动下，清华大学团队提出了 V3D，它利用预训练视频扩散模型的世界模拟能力来促进 3D 生成。

为了充分的发挥视频扩散感知 3D 世界的潜力，研究团队进一步引入了几何一致性先验，并将视频扩散模型扩展为多视角一致性 3D 生成器。得益于此，最先进的视频扩散模型能够最终靠微调在给定单张图像的情况下生成围绕物体的 360 度轨道帧。利用这一量身定制的重建管道可以在 3 分钟内生成高质量的网格或 3D 高斯。

此外，V3D 还可扩展到场景级新视图合成，在输入视图稀疏的情况下实现对摄像机路径的精确控制。实验证明了这一方法在生成质量和多视图一致性方面的卓越性能。

来自 Epoch、麻省理工和东北大学（Northeastern University）的研究团队探索了自深度学习出现以来预训练语言模型算法的改进速度。利用 Wikitext 和 Penn Treebank 上的 200 多个语言模型评估数据集（时间跨度为 2012-2023 年），研究团队发现，达到设定的性能阈值所需的计算量大约每 8 个月减少一半，95% 置信区间约为 5 到 14 个月，大大快于摩尔定律的硬件增益速度。

研究团队估算了增强的 scaling laws，这使量化算法的进步能够量化，同时确定缩放模型与训练算法创新的相对贡献。尽管算法进步和新架构（如 Transformer）的开发速度很快，但计算能力的提高对这一时期的整体性能提升做出了更大的贡献。虽然受限于嘈杂的基准数据，但该项分析量化了语言建模方面的快速进步，揭示了计算和算法的相对贡献。

扩散模型相对容易训练，但需要许多步骤才能生成样本。一致性模型（consistency models ）的训练难度要大得多，但只需一步即可生成样本。

Google Deepmind 团队提出了 Multistep Consistency Models，它是一致性模型和 TRACT 之间的统一，可以在一致性模型和扩散模型之间进行插值，在采样速度和采样质量之间进行权衡。具体来说，一步一致性模型是传统的一致性模型，而研究团队展示了∞步一致性模型是扩散模型。

Multistep Consistency Models 在实践中效果很好。通过将采样预算从单步增加到 2-8 步，可以让我们更轻松地训练模型，生成更高质量的样本，同时保留大部分采样速度优势。有必要注意一下的是，Imagenet 64 在 8 步中的 FID 为 1.4，Imagenet128 在 8 步中的一致性蒸馏 FID 为 2.1。该方法可扩展到文生图扩散模型，生成的样本质量非常接近原始模型。

4.VidProM：面向文生视频扩散模型的大型百万级真实 prompt 图库数据集

Sora 的出现标志着文生视频扩散模型进入了一个新时代，为视频生成和潜在应用带来了重大进步。然而，Sora 以及其他文生视频扩散模型高度依赖于提示（prompts），而目前还没有一个公开可用的数据集对文生视频提示语进行研究。

来自悉尼科技大学和浙江大学的研究团队提出了首个包含 167 万条来自真实用户的独特文生视频提示的大规模数据集——VidProM，该数据集还包括由四种最先进的扩散模型生成的 669 万个视频和一些相关数据。

研究团队首先展示了这一大规模数据集耗时且成本高昂的整理过程。随后展示了 VidProM 与 DiffusionDB（一个用于生成图像的大型提示图库数据集）的不同之处。基于对这些提示的分析，他们发现有必要建立一个专门用于文生视频的新提示数据集，并进一步探索真实用户在创建视频时的偏好。

这一大规模、多样化的数据集还激发了许多令人兴奋的新研究领域。例如，为了开发更好、更高效、更安全的文生视频扩散模型，研究团队建议探索文生视频提示工程、高效视频生成以及扩散模型的视频复制检测。

有了 LLMs 的加持，新一代的推荐系统有望变得更通用、可解释、可对话和可控，从而为更加智能和以用户为中心的推荐体验铺平道路。研究团队希望 RecAI 的开源能帮助加速新的高级推荐系统的发展。

多模态语言模型（MLMs）被设计用于处理和整合来自文本、语音、图像和视频等多个来源的信息。尽管它在语言理解方面取得了成功，但为了更好地实现以人为本的应用，评估下游任务的性能至关重要。

来自香港科技大学（广州）、香港科技大学、北京通用人工智能研究院、浙江大学、大湾区大学、北航和中科院大学的研究团队评估了 MLMs 在情感计算中 5 种关键能力的应用，包括视觉情感任务和推理任务等。根据结果得出，GPT4 在面部动作单元识别和微表情检验测试方面具有较高的准确性，而其一般面部表情识别性能并不准确。

研究团队还强调了实现细粒度微表情识别所面临的挑战和进一步研究的潜力，并展示了 GPT4 在处理情绪识别和相关领域高级任务方面的多功能性和潜力，它通过与任务相关代理的集成来处理更复杂的任务，如通过信号处理进行心率估计。该项研究展示了关于 MLMs 在以人为本的计算中的潜在应用和挑战。

大型语言模型（LLM）在生成类人文本方面表现出了令人印象非常深刻的能力，这彻底改变了自然语言生成（NLG）领域。但它们的广泛使用也带来了挑战，需要深思熟虑、道德审查和负责任地实践。

微软团队深入探讨了这些挑战，探索了减轻这些挑战的现有策略，并特别强调将AI生成的文本确定为最终解决方案。此外，他们还从理论角度评估了检测的可行性，并提出了新的研究方向，以解决该领域目前存在的局限性。

Stable Diffusion等文生图模型为艺术创作提供了大量机会。有研究调查了文生图模型在增强许多创意艺术家作品方面的应用。许多电子商务平台采用手动流程生成横幅广告，这不仅耗时，在可扩展性方面也有局限。

沃尔玛公司的研究团队提出了利用文生图模型，根据在线购物者的互动情况，为他们生成具有动态内容的个性化网页横幅（banners）广告。这种方法的新颖之处在于无需人工干预即可将用户的交互数据转换为有意义的提示。为此，研究团队利用大型语言模型从项目元信息中系统地提取属性元组。然后通过提示工程将属性传递给文生图模型，以生成横幅图像。研究根据结果得出，这一办法能够为用户创建高质量的个性化横幅。

扫描下方二维码，或添加微信 Tobethenum1，加入大模型论文分享群，务必备注“大模型日报”。

原标题：《清华团队提出V3D：视频扩散模型是有效的3D生成器｜大模型论文》

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇：新闻源财富源下一篇：【48812】7种大屏规划与布局思路你不知道就亏了7种大屏规划与布局思路

返回相关新闻

清华团队提出V3D：视频扩散模型是有效的3D生成器｜大模型论文

在线留言