冷眼观
“今年美国国家科技理事会发布的国家人工智能八大战略中,有三项与自然语言处理有关。”近日,北京智源人工智能研究院首席科学家孙茂松表示,“自然语言处理是全球人工智能战略之关键。”然而,当前与自然语言处理的相关技术远未成熟,许多问题亟待突破。那么,目前有哪些解决途径?
“学术领域叫自然语言,其实指的就是人类语言。自然语言处理可以说是从人工智能这个词尚未出现前,就是一个重要研究对象。”孙茂松表示。
“语言,是人独立于动物的重要特征之一。但是大家不要把自己看得太高明,更不要认为人的语言就是模板,动物的语言也很强大,其中不乏超过我们的。” 孙茂松指出,比如鲸鱼的神经细胞有370亿个,人有200多亿,本身它的神经系统就比我们发达,语言也极其丰富。而鱼在海洋光线不好的情况下,能够做很强的交流,到现在人类也对其语言的理解十分有限。尽管动物的语言和人的语言有很大不同,但共性即是语言是两个个体之间交流的桥梁,桥梁作用就是研究的关键。
上世纪60年代,机器翻译系统已经出现。相关部门用《圣经》中的句子进行了测试,句子直译的意思是“精神是愿意的,但是肉体是虚弱的”,但用当时的机器翻译成俄文,再用俄文系统翻译成英文时,就变成“伏特加是好的,但肉却腐烂,酒喝不成了”。如今把这个英语句子用谷歌翻译系统翻译成中文,基本上可以保持语义保持完好,这就是显著的进步。
但现在大数据驱动下的自然语言处理遇到的瓶颈,是一位著名机器翻译专家提出机器翻译中“pen”的问题。即“pen”有两个意思:钢笔和围栏,而无论是谷歌还是微软的机器翻译,都还不能很好地根据不同语境将其译成合适的意思。“如果见过这句话的情况机器可能会翻译准确,而没见过就需要知识的积累。大数据驱动下的自然语言处理有很大局限性,即运用知识处理问题的能力几乎没有。”孙茂松指出。
近些年,自然语言处理在全球范围受到学术界的高度重视,美国国防高级研究计划局(DARPA)对基于知识的语言智能投入相当大,涉及到数据知识与行为、低资源语言处理、知识指导模式推理、自动知识获取等。
据介绍,目前我国基于大数据驱动的深度学习已经取得显著进步,这些年来很多重要进展都是基于这个层面。有专家指出,今后自然语言处理需要通过知识驱动实现突破。孙茂松认为,“大数据与富知识双轮驱动”或成为解决问题的关键,即在大数据驱动的基础上加入富知识驱动,两者结合,缺一不可。他强调,这个知识是系统性的,而不是用破碎的知识。
为此,北京智源人工智能研究院“自然语言处理”课题团队,将致力于解决多类型知识资源构建、自然语言深度理解、可控自然语言生成、融合知识的机器翻译、智能语言学习、对话系统等问题。