2015年12月11日 星期五
计算机视觉,站在风起之前
本报记者 张盖伦

    12月13日,计算机视觉方向的三大顶级会议之一ICCV(国际计算机视觉大会)就要在智利圣地亚哥拉开帷幕了。

    对业内人士来说,这是盛会。当然,非专业人士大概会问:这和我有什么关系?

    其实,逐渐从学术界走向工业界的计算机视觉,已经在人们生活中存在很长时间了。

    日前,科技日报采访了计算机视觉底层技术领域专家戴宇荣教授。他此前在韩国科学技术院获得终身教职,曾多次担任ICCV领域主席。如今,戴宇荣离开学术界,加入专注计算机视觉的创业公司“商汤科技”。

    难点:在一堆数字里找出一个人

    戴宇荣教授一直在做的,就是教计算机学会怎么看。“计算机看到的,永远只有0和1的数字。即使是图像,在它们看来,照样是0和1。”他向记者解释,要理解研究者在计算机视觉上遇到的麻烦,就要先了解计算机处理讯息的方法。

    想象一下,你现在面对一堆看似毫无规律可循的数字,然后你接到了任务——数字中间藏着一个人,来,把他找出来。这就是计算机要干的事情,它得在数字里找到规律,发现这个藏在数字当中的人,或者一只猫、一朵花。哦,对了,你还得先告诉计算机,长成这样的是人,长成那样的是猫,有着花瓣的这株植物叫“花”,也是够费劲了。

    在日常生活的真实场景中,这堆数字经常有缺陷:比如有待识别的物体被遮住了,光照条件不同了,拍摄角度变了……所有这些,都能改变数字的规律。

    美图秀秀、人脸识别,都是计算机视觉

    那么,计算机的底层和高层视觉技术,又是什么呢?

    底层视觉,可以帮计算机进行边缘提取,进行区块分隔,让它看清图像。其实,只要你曾用过Photoshop或者美图秀秀,那么你已经感受过计算机底层视觉技术的魅力了——这些应用都采用了图像增强和图像处理技术。

    而且,如果计算机遇到了不那么清晰的画面,底层视觉技术就会对它进行预处理,丰富细节,提高清晰度;然后高层视觉技术就能对画面进行更充分的特点提取,把图像上的物体“认出来”。

    至于高层视觉技术,目前最为人所知的应用,当属人脸识别。

    随着人工智能、并行处理和神经元网络等学科的发展,人脸识别也从实验室走向了工业界。2015年,人脸识别的热度一路高歌猛进:年初,马云展示了一次“刷脸”支付技术;年末,人脸识别搅动娱乐圈,赵薇老公因司机骗过人脸识别“被卖房”……

    不过,很多业内人士仍有疑问:计算机视觉在许多应用领域还是只充当辅助角色——有它挺好,没它也无妨。而且,识别的稳定性仍有待提升。

    戴宇荣觉得,这并不意味着计算机视觉应用的普及依然遥远。“以计算机为例,上世纪八十年代之前,它笨重、巨大,使用复杂,处在一种不温不火的状态。然而,仅仅20年过去,计算机就成为家庭标配。”

    到了大学教授去工业界发展的时候?

    “深度学习技术将为计算机视觉带来更大的突破。只要我们能够找到合适的深度学习方法,计算机视觉在日常生活中的应用会更普及。”戴宇荣对自己倾心研究的技术很乐观。

    但是,如何找到这个方法?一些人的选择是,离开高校,到公司去。“当研究成果到了比较成熟、可以在工业界产生应用的时候,便是大学教授到工业界发展的时候。”

    戴宇荣觉得,现在到了这个时候。其实,许多计算机视觉领域的学界明星也已经“纵身一跃”,加入工业界:纽约大学的Yann LeCun去了Facebook 的人工智能研究院并担任院长;NEC 资深科学家余凯进入百度的深度学习研究院……

    “公司的产品可以获得大量数据以便训练更好的深度学习模型;它更大的计算机集群还可以加速深度学习模型的训练。”戴宇荣强调,要将研究成果带入工业界,需要多个部门通力合作,这不是简单的申请专利或开放源代码就能做到的。而且,公司的人才招聘着眼长远,研究团队彼此之间能够长期合作。他认为,比起大学,一所科技类公司确实更能给科研人员提供资源和人才上的助力。

    如今,计算机视觉技术已被广泛应用到图像搜索领域;它还可以在智能安防和智能家居上一展身手;再远一些,计算机视觉将成为无人车和无人机的眼睛,助推无人货运的普及……戴宇荣觉得,未来正在加速前来。

    (科技日报北京12月10日电)

京ICP备06005116