随大语言模型与生成式AI浪潮席卷全球,3D内容生成或将迎来自己的ChatGPT时刻。3D内容生成作为新兴3D资产制作手段,为内容创作模式带来了新的变革,极大促进了3D数字化内容生产的效率提升,引起业界的广泛关注。本文探讨了3D内容生成技术的主流方法及其应用领域,尤其在文生3D和图生3D方面,业界已取得不少有代表性的进展。预计3D内容生成将在游戏、电影、通信等领域有广泛的应用,推动数字内容生态的繁荣发展。
3D内容生成简介
从最初的基于几何建模的手工创作,到如今的海量数据驱动的AIGC 3D生成,3D内容创作的发展经历了以下多个阶段。
手工3D建模阶段:从1960年代起,计算机3D图形学的基础理论逐渐确立,研究人员提出了如多边形网格、样条曲线和NURBS曲面等各种建模技术,并开始利用光栅化和光线追踪算法生成更加逼真的图像。初期3D内容的生成依赖于专业人员使用建模软件进行手动创建,早期的3D建模方法和工具较为原始,3D模型的创建主要依靠艺术家和设计师使用专业软件手工建模,工作流程包括几何建模、纹理贴图、光照设置等,整个过程耗时且成本较高。这一时期的3D内容生成工作量大、耗时长,对建模人员的技术要求较高。
基于扫描与重建阶段:随着计算机硬件和传感器技术的发展,3D扫描与自动化重建技术逐渐兴起,激光扫描和结构光扫描技术能够获取物体和场景的高精度点云数据,并重建其3D模型。这一阶段,3D扫描与重建被广泛用于文物保护、医疗成像、逆向工程等领域,三维模型的生成效率和精度都得到了提升,不过生成的模型通常还需要后期处理,以优化模型效果和细节。
基于AI的智能3D生成阶段:在深度学习等技术驱动下,3D内容生成进入了新的智能化阶段。生成对抗网络(GAN)、变分自编码器(VAE)等模型能够从大量数据中学习并生成新的3D内容,被用于3D模型生成、纹理映射和风格迁移等任务。神经辐射场(NeRF)技术的提出,以及大型语言模型(LLM)和扩散模型(DM)的发展,进一步推动了3D内容生成的能力,现阶段3D内容生成模型具备了从文本、图像中生成对应3D模型的能力:
1)文生3D(Text-to-3D)是指通过输入文字描述来生成对应的3D模型。使用自然语言作为与用户交互的方式已经愈发成熟,这种生成方式具有高度的灵活性和创造性,用户可以通过简单的文字描述表达自己的创意和需求,然后由生成式模型生成相应的3D模型。文生3D中,生成质量、多样性和效率是目前业界关注的关键问题。
2)图生3D(Image-to-3D)是指通过输入二维图像来生成三维模型。这种方法通常利用了深度学习等技术,通过对大量二维图像数据的学习,能够从一张二维图像中推断出物体的三维形状和结构。例如一些应用允许将用户上传的照片转换为3D模型,为用户提供更加生动的视觉体验。此外还可以通过布局或线稿引导来生成相应的3D模型。例如,在建筑设计中,设计师可以通过提供建筑的平面图和剖面图,由3D生成式系统生成建筑的3D模型。3D模型细节还原性、形状和结构推断准确性等是目前业界普遍关注的关键问题。
3D内容生成分类
按生成内容类别的不同,3D内容生成可以进一步细化为物体生成、场景生成、人体生成、人脸生成。
物体生成:物体生成主要聚焦从文本或图像中生成特定类别的3D物体模型,通常也是三维环境及场景生成的基础。Text2Shape(2018)是首个尝试利用自然语言描述生成3D状的工作,基于Conditional Wasserstein GAN。Nvdia的GET3D(2022)提出了一种可以生成高质量纹理3D形状的生成模型,能够生成显式纹理3D网格。
场景生成:场景生成的难度比单个物体更大,因为它需要考虑物体之间的空间关系,可以创建丰富多样的场景,为游戏、建筑设计、工业设计等行业提供强大的支持。DreamScene(2024)基于显式表征3D高斯泼溅(3DGS),通过文本生成高质量、视角一致且可编辑的3D场景。斯坦福与MIT近期推出WonderWorld(2024),实现了从单一图像出发在用户实时交互下生成无限延展的3D场景,将交互式3D世界生成推向实时门槛。
人体生成:人体生成技术关注于生成逼真的数字人模型,精确创建逼真的人体模型在游戏、影视制作等领域具有广泛应用。较早的SMPL(2015)提出了一种可变形的人体模型,这种用于3D人体建模和姿态估计的参数化模型能够精确地表示不同的人体形状和姿态,几乎成为实质性的3D数字人驱动标准。近期工作MagicMan(2024)是一种从单一参考图像生成高质量多视角人像的方法,它提出了一种高效的混合多视角注意力机制,以生成更密集的多视角人像,同时保持更好的3D一致性。
人脸生成:人脸生成技术能够从文本或图像中生成各种不同风格的人脸模型,可应用于虚拟现实、社交娱乐等领域,用户可以通过3D生成模型创造自己独特的虚拟人脸,具有高度的个性化和可定制性。例如,ChatAvatar(2023)支持生成3D人脸,其运用了对抗网络和扩散模型,用户可提供详细描述或者上传一张图片,ChatAvatar会生成一系列3D头像候选项,支持导入到主流的3D软件中进行进一步编辑优化。
3D内容生成方法
近年来3D内容生成技术不断推陈出新,不同方法侧重点不同,各有优势,将3D内容生成方法归纳为以下三类:
3D原生生成方法:3D原生生成方法是利用深度学习模型学习3D数据集,并直接生成物体或场景的三维模型。早期以3D原生生成方法为主,这种方法的优势在于可以生成较高质量的3D内容,且畸形、残缺控制较好,具备3D内容直接商用的潜力。但该方法通常需要大量的3D训练数据集。典型的3D原生生成方法中,DreamTech提出了3D-DiT(2024),该方法使用3D变分自编码器将3D形状编码到潜在空间,然后通过扩散变换模型从这个潜在空间生成3D形状,此外还提供了将参考图像高分辨率信息和语义信息整合到3D生成过程的方法,使模型可以生成与给定参考图一致的 3D 形状。今年8月DreamTech又推出了Direct3D-5B版本,进一步提升生成结果质量精度。此外,OpenAI近年来先后发布Point-E(2022)、Shap-E(2023),前者支持使用文本生成3D点云,即在空间中代表3D形状的离散数据点集,后者则利用神经辐射场(NeRF)等隐式神经表征,支持文本生成多样的3D物体资产,且收敛更快、支持纹理网格渲染。
基于2D先验的3D生成方法:3D原生生成方法的弊端在于训练时依赖大量3D数据集,例如ShapeNet。不过由于2D图像的丰富程度远远大于3D资产,从2D图像中学习并升维为3D数据,又称基于2D先验的3D生成方法,近些年来快速进步。这种方式最大的优势在于无需进行专门的3D数据训练,3D数据的获取和标注通常比2D数据更为昂贵和耗时。典型工作如Google的DreamFusion(2022),其利用改进的得分蒸馏采样(SDS)方法,将强大的2D扩散模型的知识扩展至3D领域,并采用NeRF进行3D表征,从而提高文生3D的生成质量,无需专门的3D训练数据、无需修改2D扩散模型。随3DGS这一显式三维表征方法的提出,DreamGaussian(2023)将3DGS整合到生成式3D内容创建流程,显著提高基于2D先验生成方法的效率,与DreamFusion中基于mip-NeRF 360--一种改进NeRF方法相比,实现了约10倍的加速,DreamGaussian能够5分钟左右完成文生3D任务,相比之下DreamFusion需要大约1小时。
基于多视图预测的3D生成方法:基于多视图预测的3D生成方法试图结合3D原生生成方法和基于2D先验的3D生成方法的优点,先利用扩散模型根据文本或图像生成目标对象的多角度视图,进一步基于多视图进行3D重建和生成,并采取优化策略保证多视图在几何上的一致性,确保3D内容生成质量。典型的工作如Zero-1-to-3(2023),该方法利用大规模扩散模型对自然图像学习的几何先验知识,可以在指定的角度下生成同一物体的新视图,但该方法生成的视图缺乏3D一致性。UCSD的One-2-3-45(2023)在Zero-1-to-3的基础上进行了改进,在基于SDF的广义神经表面重建方法及优化训练策略的帮助下,确保生成合理一致的3D内容,并采用前馈传递的方式一次性通过神经网络生成3D网格,实现45秒内从单一图像到高质量3D网格的生成。One-2-3-45++(2023)中则进一步优化了2D多视图生成过程,通过微调2D扩散模型来生成包含六个角度的多视图的组合图像,从而增强生成3D内容的鲁棒性和质量。
3D内容生成的应用
3D生成的使用场景广泛,在游戏、电影、通信等领域发挥着重要作用。
在游戏领域,3D内容生成技术在游戏行业的应用非常广泛,它能够自动化地生成游戏环境、角色和物品,为游戏开发者提供更加高效、便捷的游戏内容创作方式,从而大大提高游戏开发的效率,并降低人力成本。除此之外,在游戏的游玩阶段也可以引入3D生成技术,为玩家带来个性化模型创造体验。例如腾讯XR实验室近期发布的交互式3D游戏场景创作方法,利用预训练的2D去噪扩散模型生成场景的2D图像作为概念指导,从用户的手绘草图等随意提示中自动生成可交互和可玩的3D游戏场景,生成的3D场景也可以无缝地集成到游戏开发环境中。
在电影领域,三维数字内容创作是电影视效中的重要一环,三维技术可以拓展电影呈现的场景空间,在数字电影制作流程中,尤其在需要三维技术辅助的电影中,需要利用多种CG模型、角色来实现最终的成片效果,其中三维数字内容包含了模型资产、材质资产、动画资产等。传统的三维内容创作流程包括设计、建模、展UV、贴图绘制等多个步骤,通常费时费力。根据文本等描述快速生成三维模型,能够减少繁琐的重复性工作,使创作者能够将更多精力投入到电影创意和细节的打磨上,同时还减少了因设计迭代而产生的额外成本,有望成为电影制作中不可或缺的一部分。
在通信领域,借助3D内容生成,用户可以在逼真的三维虚拟空间中进行互动,以体验沉浸式通信效果。沉浸式通信场景下需要结合3D人体、3D人脸以及3D场景等生成技术。实时3D人体和3D人脸重建,可以创建通信双方的虚拟代理人,辅助进行数字形态之间的互动和交流,基于摄像头等设备捕捉用户的姿态和面部表情,从而在点对点通信和多人远程会议等场景,提供更好的沉浸感和情感传递效果。3D场景和物体生成技术则为通信双方提供更加丰富生动的环境沉浸感,例如可以实时重建各类型3D数字场景,以契合当前主题,使通信参与方能够更加直观地完成沟通。
总结与展望
尽管AIGC 3D取得了显著的进展,但仍面临诸多技术挑战。3D生成模型的主要瓶颈是缺乏大量高质量的3D数据集,目前常用的3D数据集如ShapeNet(约22万个已分类的3D模型)或Objaverse(基础版本约80万个3D模型、XL版本约100万个3D模型)包含的模型数量和细节质量都有待提升,尤其是比起2D领域的大数据集,例如LAION-5B(约50亿张图像),3D数据量仍远不够来训练优质的3D大模型。确保生成的3D内容的质量也是当下面临的挑战之一,生成的3D内容可能存在瑕疵、不完整或不符合预期的情况。例如3D人体模型中可能会出现比例不协调问题,或者出现常见的Janus问题,即在3D头像生成中由于视角不一致而导致的不确定性,产生一个物体的正面视图特征(如面部或头部)错误地出现在其他视图中。
未来,3D内容生成将更加注重结合文本、图像、视频等多模态信息,以提高3D内容生成的准确性和丰富性。此外,现有模型往往在特定数据集表现良好,在面对不同领域和风格的任务时,需要进一步提升其泛化能力。最后,随计算资源的提升和算法的突破,预计将实现更快的3D生成速度,在低延迟甚至实时条件下生成复杂的动态场景和细节丰富的三维内容,以符合多变的3D场景下的业务需求。
3D内容是数字世界不可或缺的生产要素,3D内容生成技术作为一种创新技术手段,具有广阔的发展前景和巨大的应用潜力。由于真实的世界处于三维空间,3D内容生成技术的发展也有望推动真实世界模拟器的建立,其作为训练通用人工智能的重要工具,有望助力未来通用人工智能的实现。预计3D内容生成将为各个行业带来更加丰富、高效、个性化的3D内容创作体验,推动数字内容生态的繁荣发展。
【参考文献】
[1]Liu J, Huang X, Huang T, et al. A comprehensive survey on 3D content generation[J]. arXiv preprint arXiv:2402.01166, 2024.
[2]Wu S, Lin Y, Zhang F, et al. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer[J]. arXiv preprint arXiv:2405.14832, 2024.
[3]Poole B, Jain A, Barron J T, et al. Dreamfusion: Text-to-3d using 2d diffusion[J]. arXiv preprint arXiv:2209.14988, 2022.
[4]Tang J, Ren J, Zhou H, et al. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation[J]. arXiv preprint arXiv:2309.16653, 2023.
[5]Liu M, Xu C, Jin H, et al. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6]Liu M, Shi R, Chen L, et al. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 10072-10083.