2021年01月15日 星期五
深度学习能否让机器像人脑一样思维
□ 石大明

    人类一直梦想让机器拥有我们人类大脑一样的思维能力,而近年来深度学习在人工智能领域的表现一枝独秀。人工智能有两个主要分支:符号主义和联接主义。前者通过代号描绘万物,然后通过句法分析和谓词演算实现逻辑推理;联接主义则模拟人脑的神经元联接,通过学习形成输入和输出之间的映射。大体上讲,上世纪80年代之前,人工智能以符号主义的规则系统为主流,之后联接主义的(人工)神经网络渐渐成为人工智能的代名词,其中的原因更多的是利用数学工具分析和优化网络。深度学习则是近年来被广泛实际应用的神经网络。

    由于人工智能领域中的反向传播算法取得了突破性进展,第一个卷积神经网络——时间延迟网络应运而生。时间延迟网络是一个应用于语音识别任务的卷积神经网络,使用离散傅氏变换的快速算法预处理的语音信号作为输入,其隐含层由两个一维卷积核组成,以提取频率域上的平移不变特征。纽约大学终身教授乐昆(LeCun)在1989 年构建了应用于图像分类的卷积神经网络。卷积神经网络对权重进行随机初始化后,使用了随机梯度下降算法进行学习,这一策略在随后的深度学习研究中被广泛采用。此外,乐昆在论述其网络结构时首次使用了“卷积”一词,“卷积神经网络”也因此而得名。

    2006年后,随着深度学习理论的完善,尤其是逐层学习和参数微调技术的出现,卷积神经网络开始快速发展,在结构上不断加深,各类学习和优化理论得到引入。2012 年,多伦多大学杰弗里·辛顿带领的团队结合前人的研究工作提出了新的卷积网络,采用数据增强、小批量随机梯度下降等作为激活函数和使用图形处理器(GPU)加速计算等特点,大大提升图像分类和物体识别的正确率。

    从技术角度上讲,神经网络完成从数据到概念的任务学习,比如,输入的数据是一幅图像,输出是“牛”“马”等概念。当然,直接从声音或图像数据得到这些概念的映射不太可能,需要从这些原始的声音或图像数据中抽取特征,比如,边沿、基函数序列等。

    传统神经网络利用各种数学工具,如傅里叶变换、正交变换等方法从原始数据中抽取特征,这种方式的弊端在于我们并不能确定哪种数学工具能得到最好的特征。随着GPU的发展,计算机学家们抛弃了这些数学方法提取特征,以最简单的比对与组合方式,完成特征抽取。这种方式虽然“简单粗暴”,但由于GPU的强大计算能力,确实能找到更好的特征表示,并且实现神经网络的“端到端”学习,即像人脑一样黑箱式工作——人可以很聪明,但我们不需要知道人脑内部如何工作。

    以卷积神经网络为代表的深度学习是传统神经网络的延伸,只是利用GPU的强大计算能力,以大样本训练的方式自动提取特征,因为其高度非线性表达能力已被广泛应用到很多领域,但存在诸多问题,在实际生产环境中极少存在大规模满足训练要求的数据集;网络的训练和运行没有严格遵照仿生学原理,这也是其性能得不到进一步优化的瓶颈问题。所以说,深度学习不能成为人工智能的途径。

    因此,在人工智能与深度学习正在进入实用阶段的关键时刻,亟需对深度学习有一个清醒认识,秉承仿生学原理,通过少量模式而不是大量样本来实现特征的提取。

    (作者系深圳大学计算机与软件工程学院教授)

京ICP备06005116