日前,微软亚洲研究院视觉计算组在2015 ImageNet计算机识别挑战赛中凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context challenges,常见物体图像识别)中同样登顶,在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。
据了解,在此次挑战赛中,微软亚洲研究院的研究团队使用了一种前所未有的深度高达百层的神经网络,这比以往任何成功使用的神经网络层数多5倍以上,从而在照片和视频物体识别等技术方面实现了重大突破。
事实上,该研究团队早在今年一月就首先实现了对人类视觉能力的突破。当时,在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中,他们系统的错误率已降低至4.94%,今年微软亚洲研究院视觉计算组的系统错误率已经低至3.57%。此前同样的实验中,人眼辨识的错误率大概为5.1%。
微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文表示:“微软亚洲研究院视觉计算组在此次ImageNet挑战赛中所取得的出色成绩,不仅是微软在深层神经网络的研究和应用上所取得的科学突破,同时也代表着计算机视觉技术在目标识别方面的又一次飞跃。我对这一突破对其他研究领域的推动以及相关产品的转化充满期待。”
微软亚洲研究院视觉计算组首席研究员孙剑博士带领的团队在深层神经网络方面进行了算法的更新,并称之为“深层残差网络”(deep residual networks)。目前普遍使用的神经网络层级能够达到20到30层,在此次挑战赛中该团队应用的神经网络系统实现了152层。该研究团队还使用了一个全新的“残差学习”原则来指导神经网络结构的设计。“残差学习”最重要的突破在于重构了学习的过程,并重新定向了深层神经网络中的信息流。它很好地解决了此前深层神经网络层级与准确度之间的矛盾。孙剑表示:“从我们极深的深层神经网络中可以看出,‘深层残差网络’力量强大且极为通用,可以预见它还能极大地改善其他计算机视觉问题。”
微软亚洲研究院多年来在计算机视觉领域的研究成果已经转化到众多微软的智能产品和服务中,包括微软牛津计划中的人脸识别和图像识别API、Windows 10中的Windows Hello“刷脸”开机功能、必应的图像搜索、微软小冰的多个图像“技能”,OneDrive中的图片分类功能,以及广受好评的口袋扫描仪Office Lens等等。
ImageNet是一个计算机视觉系统识别项目,也是目前世界上图像识别最大的数据库。ImageNet挑战赛每年举办一次,由来自全球顶尖高校、企业及研究机构的研究员组织举办,近年来已经成为计算机视觉领域的标杆。MS COCO数据库由微软资助建立,其挑战赛目前由学术界几所高校联合组织,独立运行。