2016年11月24日 星期四
察“言”观色!谷歌教AI深度学习唇语

■业界新鲜事

    人工智能现在是个热闹的话题,但事实上,自动驾驶、专业护理等备受投资者热捧的领域,离真正的实用还远得很。而相比之下,同声传译、语音翻译等语言服务,似乎更贴合当下人们的实用需求。

    唇语辨识辨是其中之一。据数据显示,大多数人平均只能读对一句唇语的十分之一。唇读很困难,不仅是因为你要观察对方嘴唇、舌头和牙齿的轻微运动,而且大多数唇语信号十分隐晦,难以在没有语境的情况下分辨。

    现在,研究人员表示人工智能技术,比如深度学习或许能够解决这个难题。毕竟人工智能侧重于大数据运算,已经帮助改善了机器语音识别,甚至能达到人类的水平。

    据国外媒体报道,牛津大学人工智能实验室、谷歌DeepMind团队和加拿大高等研究院(CIFAR)就在近日联合发布了一篇论文,介绍了结合深度学习技术的唇读程序LipNet。

    在GRID语料库上,LipNet实现了93.4%的准确度,超过了经验丰富的人类唇读者和之前的79.6%的最佳准确度。研究人员还将LipNet的表现和听觉受损的会读唇的人的表现进行了比较。平均来看,他们可以达到52.3%的准确度,LipNet在相同句子上的表现是这个成绩的1.78倍。除此之外,该模型将可变长度的视频序列转换成文本的过程几乎是实时的。

    研究团队表示,在深度学习的帮助下,这种唇读方式可以帮助有听力障碍的人,尤其是在嘈杂的环境中。例如在聚会上,LipNet就可以录制实时通话,并将信息清晰准确地送到人们的耳中。只要有语音识别和摄像头,在任何地方都可以实现这项服务。在未来,如果人们不想亲自和计算机对话,只要动动嘴巴它就能知道你在说什么了。

    不过,有专家指出,牛津大学的这一实验具有局限性。这一实验首先是基于GRID语料库完成的,这其中包含34个志愿者录的短视频,所有的视频都长3秒。每个句子都是以这样的模式出现的:命令、颜色、介词、字母、数字、副词等。由于这一模式下的词句是有限的,只包含了四种不同的命令和颜色。

    该团队的研究人员在接受国外科技媒体采访时说道,他们正在努力地突破“有限的词汇和语法”,“现在的数据集虽小,但它却是一个好的迹象,将来我们会使用更大的数据集执行任务。”

    除此之外,研究团队强调这一成果不会用于窥探他人的隐私。很简单,因为唇读需要看到对方的舌头,所以必须在光线很好的地方才能够完成这一行为。若要窃密,除非拿着一个技术很高的相机对准目标对象,同时还要举着一个麦克风指向被窃者。(何文) 

京ICP备06005116