2021年02月19日 星期五
AI是怎样思考的
——漫谈人工智能(上)
□ 陈思进

    超越时空

    在《量子计算有多神奇(下)》中提到,量子计算机最擅长的,是可以同时对所有可能性进行运算,但纠错方法则是一个迄今尚未突破的难题。可以想象,当人类一旦突破这个技术难点的时候,人工智能或将迎来全新的时代。而人工智能(Artificial Intelligence,以下称AI)则是当下第四次工业革命之中的几大关键技术之一,那就从这篇开始,详细介绍一下AI的方方面面。

    人手一部的手机中,APP核心驱动力就是AI技术:图片处理系统利用AI识别图像、进行分类、一键美化;新闻软件推送的个性化新闻稿件由AI程序自动撰写的;各类出行软件里AI算法为司机选择路线、规划调度方案;未来自动驾驶技术还将重新定义我们的城市和交通。而网络购物,客户从首页通过语音、图片的方式检索商品后,会获得个性化商品推荐;客户咨询客服时,回答问题的是机器人;然后平台数据库根据这一消费轨迹设计特定的营销。比如买米几次后,AI预估下次购买时间,并及时推荐特价、优惠券之类吸引再次消费。

    如今的人工智能就是用人类制造的机械和电子装置来模拟人类智能。这一人造智能,总有一天达到甚至超越人类智能。此篇从“眼耳口身意”维度,对AI基础应用进行梳理。

    人类观察世界依赖于眼睛,计算机视觉就是一门让机器“看见”的科学,最终目标是通过视觉观察,让机器更容易理解世界。机器看的文字、图像或者视频,通过观看最终输出对画面的理解,进而了解所“看见”的世界。像手机相册自动照片分类,可以识别银行卡号或者快递地址。乘坐高铁时的人脸验证识别等都属于计算机视觉范畴的实际应用。

    机器没有耳朵,又是如何听到声音的呢?对于一个普通人而言,“听到”就代表着知道谁在说?说了什么?而对于机器而言,完成 “听到”的动作,首先需要借助麦克风阵列来收音。麦克风阵列可以理解成多个麦克风结合相关前端算法的系统,它的收音单元比较多。在收音的基础上,运用语音技术中的一项语音识别技术(简称ASR),把听到的声音转换成文字即可,这样机器就听到“说了什么”。至于到底是“谁在说”?那就需要用到声纹识别技术来进行分辨,识别出说话者是谁。

    发声是为了传达信息,如果想要通过机器主动发声怎么办?虽然机器没有嘴巴,但是可以用到语音技术中的另一项核心技术——语音合成技术(简称TTS),利用它将文字信息转换为人类听得懂的语言,来达到说话的功能。常言道能听会说,听与说是紧密相连的,ASR和TTS作为语音技术的两项核心技术,在实际应用中也是密不可分的,将它们与不同载体或者场景结合,就会出现智能音箱、智能电视、智能车载等丰富多样的产品。

    AI在“身“的延伸技术,主要以实体机器人表现为主。大致上可以将实体机器人分为两类:工业机器人和服务与仿人机器人(也可细分为家庭服务机器人、商用服务机器人)。

    感知、运动和认知是实体机器人的三要素。其感知能力主要依赖于硬件系统中丰富的传感器,能够检测或感知世界温度、光线、声音、图像、距离、触觉、力觉、射线等并做出反应。有些实体机器人生产者还会为仿人机器人定制仿生皮肤,比如“女性”机器人索菲亚就拥有柔软的橡胶皮肤。

    而工业机器人主要是模仿并发挥人体的运动能力,如四肢、骨骼和肌肉的发力,将动力学研究融入其中,其目的是在工业生产中代替人做一些危险、单调重复的作业。其中机械臂作为一种固定或移动式的机器,是工业机器人领域中使用最广的一种机械装置。

    几十万年间,人类祖先将进化的方向指向大脑,随着脑容量增加,人类拥有了明显区别于其他动物的智慧,并且自然形成了语言。语言也是人类最明显的特征。为了实现人机交互,就必须要让机器学会处理和运用自然语言,这就是自然语言处理技术。想要处理,必先理解,简单说就是“能理解会思考”,这包含了两个过程,即自然语言理解(NLU)和自然语言生成(NLG)。AI底层技术中最后的“意”就是思考。

    语言是人类进行交流的工具,而交流的是信息,是脑海中概念的映射,是意义的阐述和理解。完成自然语言处理,既要求机器能理解自然语言的意义,又能用自然语言表达意图和思想。

    语言本身非常复杂,不同语种之间、即便是同一个语种,也可能存在一词多义,一义多词,隐喻等各种语境变化。而且人类每天都在创造新生词汇,比如网络词语、新梗等,这使得这门技术也变得非常庞杂。正因如此,自然语言处理指向了一种更加抽象和不可捉摸的思维困境,这也让机器理解人类的语言变得困难重重。

    理解了自然语言,是否就能对人类思维的秘密一探究竟?目前还无法回答,但毫无疑问自然语言处理技术是AI皇冠上一颗极为耀眼的明珠。这项技术在各个领域也得到了广泛的应用,比如各种语言间随意转换的机器翻译,智能助手的问答系统,对海量文本数据进行结构化的信息抽取等,都是以自然语言处理为核心技术。

    那在这些应用产品中,即便机器能够迅速给出翻译结果、回复问题、抽取信息,就可以认为它们已经理解语言了吗?自然语言处理仍然面临着许多瓶颈亟待突破。最尖端的科技,依然是酷炫、规整、深邃……带有抽象的疏离感。在AI技术快速发展,全方位落地并渗透生活衣食住行各个方面的现在,AI的鼎盛时代又会怎样?它会在何时到来?

    这些问题留待接下来的几篇和大家一起讨论、思考。

    (作者系加拿大某国际财团风险管理资深顾问,科幻作家)

京ICP备06005116