仅凭一张照片就能生成3D人体模型 --科技日报数字报

今日头条

近日，重庆中科云从科技有限公司（以下简称云从科技）提出一种新型DenseBody框架，可直接从彩色照片中获取3D人体姿势和形状。而此基于单帧图像的3D人体重建技术，将原有最低误差降低30%，刷新了世界纪录。

获取人体3D数据不容易

用Emoji、zepeto等软件将自己的照片转换成3D动画头像的功能曾风靡一时，但很多人发现，其实生成的3D形象和自己并没有那么像。

传统3D重建技术大多需要连续的图像序列或是多视角的图像，在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备，因此在手机等便携设备上往往难以实现；另一方面，专用设备还会增加部署成本，增加大规模普及3D重建技术的难度。但基于单帧图像的3D重建技术对原始图像要求放松的同时，对背后的技术却提出了更高挑战。

“去年，隶属于云从科技的云从研究院曾提出针对人脸的稠密3D关键点技术PRNet，它能够基于一帧人脸图像重建出约4.5万个人脸3D关键点，实现了在多个3D人脸数据集上大幅领先之前的技术。而相较于人脸，人体的3D重建更困难。”云从科技资深算法研究员田国栋解释，人体具有密闭的3D曲面结构，任何一个角度拍摄的图像都存在约一半的不可见部分；人体的四肢更加多变，更加复杂；还存在因为服装的遮挡问题，人体的3D数据更难获取，对深度学习技术的使用限制更多等问题。如果要重建，需要技术从单帧图像中推理出人体或人脸的3D形态，并通过光学透视、阴影叠加等基本光学原则准确预测出各个关键点在3D空间的位置和朝向，才能得到人体的姿态或表情信息。

减少中间损耗让重建更精准

“针对这些难点，我们提出了一种高效的方法，使用卷积神经网络（CNN），从单个彩色图像中直接得到完整的3D人体网格。”田国栋表示。

据了解，以往的3D人体重建算法往往需要将问题降维，将复杂的人体形态从三维降到二维层面，从而降低问题的难度。云从科技此次提出的3D人体重建算法摆脱了低维线性空间的限制，并设计了一种新型的3D信息表征方式，采用6万多个点表示3D人体，通过卷积神经网络直接预测人体的3D形态和姿态，从而取得了精度和速度上的双重突破。

“信息的传递层级越多受损越大。”田国栋介绍，与其他研究相比，该研究提出了一个端到端的方法，从单个彩色图像直接得到3D人体网格，能够把2D图像中的完整人体编码为姿势和形状信息，无需依赖任何参数化的人体模型。可谓把3D人体重建的复杂度从两步降到了一步。同时，该技术还可同时“训练”一个编码器—解码器网络，该网络可直接把输入的彩色图像映射到3D表示，无需解决2D姿态估计（确定某一三维目标物体的方位指向）等中间任务。

田国栋表示：“我们进行了多次实验来评估以上方法的效果，并与现有的最优方法进行对比。结果显示，该方法在多个3D数据集上实现了显著的性能提升，运行速度也更快，帧率达到200fps后很多应用都可以实时显示，推动更多智能应用落地指日可待。”