近日,百度研究院高级工程师AwniHannun在参加国际神经网络协会举办的会议中时提出了一种可识别普通话的新模型,该模型基于百度深度语音学习开发,可实现普通话语音查询功能,识别准确率高达94%。
普通话语音识别有两个难点。第一则是字符数据量大。英文只有26个字母,但中文约有8万个不同的字符。相比于英文,系统要在每次转录中直接输出8万个字符中的其中一个,如此庞大的数据量对于系统运算能力要求极高。为解决这一问题,研究团队通过收集人们常用词,筛选出有用的字符。这一方法提高了系统运算效率。
第二,在普通话的表述中,声调的不同往往会改变一个词的意思。且在传统的语音识别中,设想所有的语音具有相同间距,以至于在转录时可以忽略它们。但这套理论却无法转译普通话。普通话体系极为复杂,这就语音系统提出了更高的要求。百度通过特殊的语音识别渠道,省去了大量预处理环节来维持音频的稳定间距,再让模型学习何种数据可以最有效的转录,这一做法大大降低了语音识别的难度。
在谈及百度深度语音系统对比Skype翻译的优势时,Hannum分析认为,百度的优势在于学习能力。每条音轨中包含三个模块,即语音转录模块、机器翻译模块和语音合成模块。百度深度语音系统则不同于以往的语音转录系统,它并没有大量预处理环节,而是直接输入音频文件,再通过深度神经网络输出字符。深度神经网络则需要大量数据,去学习哪些输入信息可将语音转译成正确的普通话。与Skype不同,百度希望将该系统作为所有智能设备的语音接口,嵌入到可穿戴设备或语音识别应用中,而不仅仅将它定义为一款语音搜索产品。
深度学习作为该系统的核心,发挥了极其重要的角色。随着机器翻译和语音识别技术发展趋于成熟,人们更多的希望机器完成输出任务。而深度学习系统的加入则在增加数据量的同时,简化音频轨道,通过不断的学习将机器获取的信息有效输出。这也是Hannum看好深度学习的原因。
深度语音识别系统出色的成绩背后是所有全中文数据超过10万亿次运算学习的成果。且该系统还在寻找更多的关于各地方言及口音的信息,扩大系统训练数据。目前,该系统支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练,提高系统学习效率。数据集与学习效率的不断完善将使百度深度语音识别系统在识别准确率进一步提升。
对于深度学习的未来,Hannum认为将该模型在更小的系统上运行是重要的趋势之一。大量实验表明,将现有的学习模型压缩成小模型后,表现依旧稳定。这将使深度学习系统植入手机等移动设备成为现实。(向阳)