今日头条
近日,重庆中科云从科技有限公司(以下简称云从科技)提出一种新型DenseBody框架,可直接从彩色照片中获取3D人体姿势和形状。而此基于单帧图像的3D人体重建技术,将原有最低误差降低30%,刷新了世界纪录。
获取人体3D数据不容易
用Emoji、zepeto等软件将自己的照片转换成3D动画头像的功能曾风靡一时,但很多人发现,其实生成的3D形象和自己并没有那么像。
传统3D重建技术大多需要连续的图像序列或是多视角的图像,在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备,因此在手机等便携设备上往往难以实现;另一方面,专用设备还会增加部署成本,增加大规模普及3D重建技术的难度。但基于单帧图像的3D重建技术对原始图像要求放松的同时,对背后的技术却提出了更高挑战。
“去年,隶属于云从科技的云从研究院曾提出针对人脸的稠密3D关键点技术PRNet,它能够基于一帧人脸图像重建出约4.5万个人脸3D关键点,实现了在多个3D人脸数据集上大幅领先之前的技术。而相较于人脸,人体的3D重建更困难。”云从科技资深算法研究员田国栋解释,人体具有密闭的3D曲面结构,任何一个角度拍摄的图像都存在约一半的不可见部分;人体的四肢更加多变,更加复杂;还存在因为服装的遮挡问题,人体的3D数据更难获取,对深度学习技术的使用限制更多等问题。如果要重建,需要技术从单帧图像中推理出人体或人脸的3D形态,并通过光学透视、阴影叠加等基本光学原则准确预测出各个关键点在3D空间的位置和朝向,才能得到人体的姿态或表情信息。
减少中间损耗让重建更精准
“针对这些难点,我们提出了一种高效的方法,使用卷积神经网络(CNN),从单个彩色图像中直接得到完整的3D人体网格。”田国栋表示。
据了解,以往的3D人体重建算法往往需要将问题降维,将复杂的人体形态从三维降到二维层面,从而降低问题的难度。云从科技此次提出的3D人体重建算法摆脱了低维线性空间的限制,并设计了一种新型的3D信息表征方式,采用6万多个点表示3D人体,通过卷积神经网络直接预测人体的3D形态和姿态,从而取得了精度和速度上的双重突破。
“信息的传递层级越多受损越大。”田国栋介绍,与其他研究相比,该研究提出了一个端到端的方法,从单个彩色图像直接得到3D人体网格,能够把2D图像中的完整人体编码为姿势和形状信息,无需依赖任何参数化的人体模型。可谓把3D人体重建的复杂度从两步降到了一步。同时,该技术还可同时“训练”一个编码器—解码器网络,该网络可直接把输入的彩色图像映射到3D表示,无需解决2D姿态估计(确定某一三维目标物体的方位指向)等中间任务。
田国栋表示:“我们进行了多次实验来评估以上方法的效果,并与现有的最优方法进行对比。结果显示,该方法在多个3D数据集上实现了显著的性能提升,运行速度也更快,帧率达到200fps后很多应用都可以实时显示,推动更多智能应用落地指日可待。”