Siri、小度和小冰它们是怎么做到和你相谈甚欢的 --科技日报数字报

你知道小冰吗？你呼叫过小度吗？你和小娜互动过吗？你使用过Siri吗？如果都没有，那你就out了。它们都是当下很火爆的智能语音机器人，很多人都和它们聊过天。

日前，美国投资机构Mangrove Capital Partners发布了2019年《语音技术报告》。报告分析了语音助理服务的日益普及，并预测苹果2020年将推出Siri操作系统。那么，究竟什么是语音技术？它有哪些应用？语音操作系统又是什么？为此，记者采访了相关专家。

通过纯语音信息实现与机器交互

与图像识别、机器学习一样，智能语音是人工智能的一个分支。在人工智能异常火热的当下，从Siri到小度，从小冰到小娜，智能语音正在融入人们的生活之中。

所谓智能语音技术，就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法，涉及语音识别、内容理解、对话问答等。一般来说，智能语音就是利用计算机对语音信息进行自动处理和识别的技术。

“从引擎模块的角度讲，智能语音技术包括语音前端处理（含语音增强）、语音识别、语音合成、语义理解对话管理和声纹识别等模块。其中，语音识别就是将语音信息通过计算机自动处理转化成文字的过程，也叫语音转写，它包括语音分段、端点检测、特征提取、解码以及后处理等过程。”中国科学院声学研究所（以下简称中科院声学所）研究员赵庆卫告诉科技日报记者。

目前，智能语音技术主要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。所谓虚拟助手，就是智能语音助手，它的核心在于人类通过纯语音信息实现与机器的交互，让智能机器“助手”帮忙完成指派的任务。

在赵庆卫看来，语音操作系统是一个比较大胆的设想，基于语音的人机交互有很大的发展潜力，所以不少互联网企业都看好这个方向。目前，亚马逊已经打造了一个智能语音云平台（Alexa），平台上有各种智能语音应用（8万种技能），在这个平台上，用户可以通过语音发出一系列指令，比如购物、搜索、听音乐、讲故事等。

智能语音技术的前世今生

事实上，智能语音技术的研究起源于20世纪50年代。1952年，美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”，它可以识别数字0—9的发音，且准确度高达90％以上。并且它对熟人的精准度高，而对陌生人则偏低。1958年，中科院电子所的声学研究室利用电子管实现了10个元音的识别。“由于那时计算能力很弱，智能语音只能做一些特别简单的字母或数字的识别。”赵庆卫说道。

20世纪60年代到70年代初，语音识别的研究取得了一定进展。“此时，智能语音技术开始形成系统的框架，提出了基于线性预测编码（LPC）技术的特征提取方法和动态时间规整（DTW）技术，并且使用模板匹配的方法做一些简单的语音识别（小词汇量、特定人、孤立词）”。

从20世纪70年代中期到80年代，语音识别的框架有了突破，统计模型逐步取代模板匹配的方法，隐含马尔科夫模型成为语音识别系统的基础模型。同时，也采用高斯混合模型作为声学模型的主要建模方法，连接词识别和中等词汇量连续语音识别得到了较大发展。

“到90年代的时候，基础的神经网络语音识别模型已经提出。但当时神经网络语音识别模型之所以没能取得较大的突破，主要是因为当时服务器的计算能力不够强以及训练语音数据的量不够多。”赵庆卫说，90年代时的神经网络语音识别模型没能替代传统方法，此时智能语音技术还是以隐含马尔科夫模型和高斯混合模型为基本框架。

从20世纪90年代到21世纪初，非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。1997年，IBM首个听写产品Via Voice问世，用户只要对着话筒说出想要输入的文字，系统就会自动识别并输出文字。

2002年，中科院自动化所推出了“天语”中文语音系列产品——Pattek ASR；2005年，中科院声学所推出国内第一个自主研发的电信级语音识别平台，首次实现了国产语音识别软件的规模应用，在中国移动23个省的增值业务上线应用，占据了国内80%市场份额，使美国公司对中国语音识别市场的垄断成为历史。

深度神经网络框架成为主流

2010年，随着服务器的计算能力大幅提高（受益于GPU的应用）和训练语音数据的大幅度增加（受益于移动互联网和云计算的发展），微软基于深度神经网络的语音识别研究取得较大进展，“识别错误率相对下降20%以上”。此后，深度神经网络的建模优势被许多国际和国内知名语音研究机构所验证，业界开始认识到基于深度神经网络的建模框架比原来的框架识别效果明显要好，“现在大家基本都采用了基于深度神经网络的建模框架。”赵庆卫说道。

最近几年，基于深度神经网络的语音识别技术也进行了持续的迭代，从基础的深度神经网络发展到延时神经网络（TDNN）、双向长短时记忆（BLSTM）以及卷积神经网络（CNN）等；近年来，基于端到端架构（End-to-End）的语音识别系统正在被语音识别的学术界和工业界深入研究，一些系统也已经上线，中科院声学所将其最新研究成果实际应用于中国移动通信集团和中国电信集团的客服热线，智能技术直接服务了数以亿计的客户。

据了解，中科院声学所长期致力于语音识别核心技术研究。针对实时语音识别的需求，研究人员提出一种基于混合神经网络（延时神经网络+输出投影门循环单元）的低延时声学建模技术,可处理长时信息，网络结构简洁，计算速度快，易于并行化训练。该模型结构已作为一种新型的回馈神经网络结构被国际主流语音识别开源软件Kaldi采纳。在非实时语音识别方面，提出基于BLSTM-E（双向长短时记忆扩展）的深度神经网络结构，提升了现有主流BLSTM的性能，并解决了序列化训练条件下LSTM（长短时记忆网络）对不同长度语音输入的鲁棒性差的问题。