无声语音识别暂难成消费级产品 --科技日报数字报

产业界

本报记者刘艳

世界知识产权组织（WIPO）日前公布了一项微软申请的“无声语音输入”（Silent Voice Input）专利，丰富了“机器听懂人话”的场景。

虽然还很难判断使用者能否接受该专利的另类语音输入方法及该专利的市场前景，但很多看似天马行空的研发往往孕育着巨大的商机，如果它们能找到正确的市场和恰当的推动方法。

验证了语音交互技术的又一种可能

语音识别技术离完美还很远，噪杂的环境、吐字不清的词汇、俚语及方言都会让机器陷入混乱，开发更精准更私密的语言识别技术，仍是包括微软在内的产业和学界的主要科研方向。

通常情况下，语音输入首先要发出声音，其次需要一个相对安静的环境。根据微软这项专利的说明，只要让麦克风等设备靠近嘴巴，该语音输入解决方案就能捕捉到极低的，如同耳语般的声音信号，并过滤掉周围的杂音。除自己之外，别人听不见或听不懂。

当然，说话方式可能需要练习。一般情况下，我们讲话时吐气，微软的解决方案要求使用者在吸气时执行语音输入。

此外，尽管语音输入的性能持续被改善，但除了“调戏”siri，很少有人会在公共场所一本正经的用语音输入，怕打扰别人，也有语音内容私密性的顾虑。在这种情况下，微软的专利不失为一种妥善的解决方案。

而麻省理工学院的研究人员开发的新型人机接口“AlterEgo”则更为魔幻，骨传导耳机环绕用户的耳朵和下巴，计算机系统处理并翻译耳机接收的数据并输出反应，如同人们在阅读时的“默念”。

这个系统有点像“肌电假体”，当你准备作出某种行为时，大脑会告诉肌肉怎么做，同理，当你想着某个词时，大脑会向面部及喉部肌肉发送信号。

主要研究人员Arnav Kapur表示，他们的初衷是将人类和机器以某种方式进行混合，仿佛人类自身认知的内部延伸。

如果这台设备真的能商用，确实意义非凡。但是，当前的无声语音识别都处在技术验证阶段，这究竟是一种无用的“情怀技术”，还是可演变为用于特殊场景的产品，尚待业界探索。

工程师们还在努力弥补语音技术缺陷

语音技术不仅具有典型的“赋能”特征，更是当前人们与人工智能互动的最重要界面，已同焦土战般激烈的“百箱大战”给语音技术市场带来很多幻象。

事实上，现在大多数基于语音技术的硬件产品与智能服务交互体验仍然存在很多缺陷，研究机构与产业公司还在技术研发层面不断努力完善。

微软全球资深技术院士、微软云与人工智能事业部负责人黄学东博士，是微软语音技术的创始人，微软的语音识别、语音合成技术研发团队都由他一手组建。

在黄学东的带领下，2016年10月18日，微软语音团队识别研究团队在 Switchboard语音识别基准测试中刷新自己的纪录，词错率低至5.9%，达到了人类的水平。

306天后，这一纪录再次被微软刷新，词错率降低到 5.1%，超过专业速记员的误差水平，被学术界看作是“人工智能在感知上的一重大里程碑”。

微软全球执行副总裁沈向洋说：“尽管这项语音识别系统还存在一些应用场景的限制，但我相信未来几年内，机器将会完全超越人类的识别水平。”

尽管各类科研机构为了实现语音识别准确率的“人类对等”，奋斗了二十几年，但目前在嘈杂环境下较远的麦克风的语音识别、方言识别、训练数据有限的特定说话风格或较少人使用的语言的语音识别等，都未达到人类水平。

与此同时，Switchboard虽然是全球语音研究人员用了20多年的通用测试数据集，很多技术公司与组织在上面做语音方面的相关研究，它有着全球开发人员多年来的技术积累，但并不意味着测试结果可以“平移”到现实环境中。

如黄学东所说，公开性的测试、发表的学术文章，与现实产品虽然不能完全割裂，但消费级产品与商业场景，需要不一样的评判标准。