2014年10月14日 星期二
科大讯飞 领跑智能语音技术
文·本报记者 刘 垠

    专家点评

    科大讯飞作为语音行业的高科技企业,正在引领语音技术的发展。从一个由十几个青年学子组成的创业公司,在短短十余年期间发展成为拥有两千多名研发人员、市值两百多亿的行业领军企业,展现了公司强大的人才凝聚力和高效的发明创造能力。科大讯飞已经拥有世界最先进的语音技术和语音产品以及一支充满激情和活力的世界一流研发团队。目前推出的超脑计划无疑会进一步加速提升公司的研发能力和在行业的领军地位。相信讯飞一定能在智能语音领域取得颠覆性的技术突破,从而改变未来人机交互与通信模式。

    陈景东

    (西北工业大学特聘教授,原AT&T贝尔实验室高级研究员,国家“千人计划”专家,国家自然科学基金委杰出青年基金获得者)

    继8.20智能家庭语音系列应用推出后,科大讯飞股份有限公司(下简称科大讯飞)最近动作频频。9月,讯飞语音云开放平台为滴滴打车量身打造了智能语音应用服务。此后,讯飞输入法入驻苹果产品,成为iOS8上唯一支持语音输入的第三方输入法,支持普通话、英语、粤语和部分方言语音输入。

    作为中国最大的智能语音技术提供商,科大讯飞在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果;2003年、2011年,科大讯飞两次荣获“国家科技进步奖”;2005年、2011年摘得中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”;2006年至2014年,接连夺得九届国际语音合成大赛第一名……

    ——商业模式——

    几经转型后的战略选择

    如果说过去15年,是互联网爆发的时代;未来5—10年,则是智能化技术和智能产业爆发的时期。因为,无论是机器人、无人飞机,还是谷歌眼镜、苹果iwatch在内的一系列智能设备,都必须有强大的人工智能系统作为核心技术支撑。

    能在互联网爆发的时代中前瞻智能技术的未来,沉淀过硬的创新技术和独到的商业模式后,便可在机遇来临时站在浪潮之巅。科大讯飞,就这样在互联网的浪潮中勇立潮头。

    目前,国内从事智能语音产品研发和生产的企业,以科大讯飞为代表。纵观全球语音技术市场,国外的语音识别采用Nuance识别引擎技术为多,如为苹果Siri功能提供技术支持。而在中国,科大讯飞凭借独有的技术优势和敏锐视角,稳占七成以上中文语音技术市场份额,初步形成以讯飞为核心的中文语音产业链。

    时间倒回至1999年,18名来自中国科技大学(简称中科大)的学生,搭建起了科大讯飞最早的班底。要让电脑“能听会说”并将语音技术产业化,是现任董事长刘庆峰创办公司时的理想。在计算机还未普及的年代中,这样的想法无异于天方夜谭。

    科大讯飞最早的核心技术其实是PC上的软件,也是团队最想做的方向。1999年,6个核心学生创业团队刚开始推出的产品是畅言2000,由于公司规模、成本以及对消费类产品的市场推广不够成熟等原因,最终选择放弃。

    “要证明技术创新领先很困难,语音产业投入周期需要几年甚至更长,互联网时代如果一年半载不产生效益就会被抛弃。”在科大讯飞高级副总裁、讯飞研究院院长胡郁看来,把语音技术转化为产品,难点在于能否稳定运行,适应不同市场。

    2000年,在与华为的合作中要求使用语音合成系统,测试后对方认为稳定性不过关。为此,核心团队人员几天几夜未眠,最终解决了问题。正是一路走来的执着,为用户提供领先的产品和优质的服务,科大讯飞与华为的合作也延续至今。

    2004年,讯飞开始自己做语音解决方案,通过与各语音搜索平台合作,以获得企业的可持续收入。把好的技术在合适的时间以适当的方式落地,后续配套优质服务,“软件+服务、软件+应用”商业模式的提出,让讯飞在业内扎稳根基。

    2010年,科大讯飞发布全球首个移动互联网智能语音交互平台——讯飞语音云,宣告移动互联网语音听写时代的到来。经过4年快速发展,目前讯飞语音云平台合作伙伴已超过40000家,囊括了腾讯QQ、小米手机、新浪微博、58同城、携程旅行、高德地图、滴滴打车等各类主流应用,终端用户数量超5亿。

    ——技术创新——

    语音交互打造智能生活

    语音技术实现了人机语音交互,使人与机器之间的沟通变得像人与人沟通一样简单。语音技术主要包括语音合成和语音识别两项关键技术。让机器说话,用的是语音合成技术;让机器听懂人说话,用的是语音识别技术。

    胡郁认为,讯飞是从中国科大走出来的企业,特色主打语音技术,希望能成为专攻核心技术的企业,用自主创新抢占中国高科技企业在未来世界竞争中的话语权。

    在科大讯飞发现语音产品新市场的同时,国际知名IT产业巨头纷纷投身其中。2011年10月,苹果公司在iphone中率先推出智能语音助理应用siri,并在2012年6月发布的ios6中支持中文服务;google公司也在安卓智能手机操作系统中,推出googlenow智能语音搜索及问答服务……

    面对国际巨头的重重包围,科大讯飞表现出自己的冷静和自信。“核心技术的创新成果持续应用,语音相关产业处于大规模爆发的前夜。”胡郁坦言,讯飞存在的价值有三:一是为了少年儿童的开心成长和快乐学习,做好教育门户;二是为了国家的通讯安全和民族文化传播;三是为了人类和人机之间信息沟通无障碍。科大讯飞通过技术、市场、品牌,形成了牢不可破的核心壁垒。

    如今,科大讯飞提出的手机、电视和教育三大门户正在渗入日常生活。打开手机,灵犀语音助手3.0不仅可以根据声音来辨别性别,进而为你提供有针对性的服务。打开并指定空调温度、让行驶噪音环境中的汽车检索地图,这一切只需要一个口令就可以实现。

    讯飞语音云的出现,标志着中国语音产业进入一个新阶段。对中国的产业链来说,智能语音是信息产业中为数不多掌握自主知识产权并处于国际领先水平的领域。在国际机器英文大赛中连续九年囊括第一,其自然度指标已经超过普通人的发音;与国家语言文字工作委员会合作推广普通话考试,并在更多地区的中、高考英语口语考试合作,从而使客观公正的计算机打分代替人工成为现实。讯飞的国际竞争力由此可见一斑。

    ——科技攻关——

    让计算机能理解会思考

    如今,科大讯飞有了更多的“头衔”:我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”……

    当语音技术多数还停留在识别应用层面,光环在身的讯飞并未沉浸在当下的荣耀中,依然选择在科研道路继续探索。这不仅让业界另眼相看,也是讯飞领跑智能语音技术始终的一贯坚持。

    当人们今天在强调产学研用结合时,当成果转化变成一个老大难时,讯飞却早早地迈开了步子抢得先机。与清华计算所、中科院自动化所等十几家高校院所成立实验室,在研发领域保持国际领先地位;让创新技术在合适的地方、以适当的方式使用,打造领先的产品、不断解决用户问题……

    提及讯飞的前瞻领跑,胡郁说到了超脑计划。终极目标是将人工智能向认知智能突破,让计算机不仅能听会写,还要能理解会思考。

    前有谷歌大脑和百度大脑虎视眈眈,讯飞对超脑计划毫不犹豫。谷歌大脑和百度大脑虽然发力较早,且投入规模较大,但目前并未取得突破性进展。如果将百度大脑定义为感知智能,什么都要懂一些的全能助手;专攻单项的讯飞超脑则属于“认知智能“,能较快地做手机应用、智能助手。

    作为认知智能领域的大脑模拟计划,讯飞超脑是我国首个前瞻研发计划。讯飞敢为人先的信心,来自于在人工智能和语义理解领域的多年技术积累,研发团队中业界大腕云集,还有多年积淀的针对重大核心技术攻关的研发实施、产学研合作机制等经验。

    讯飞超脑一旦取得突破,将对未来人工智能特别是认知智能领域产生颠覆式的影响。如果能在语言理解、知识表示、推理联想以及自主学习方面斩获进展,将使计算机的认知智能的实现和持续优化成为可能,必将带动信息服务等各个涉及认知智能领域的信息服务系统实现本质的飞跃,而人工智能产业也将从代替体力劳动升级到代替大量的脑力劳动工作。

    语音行业的特殊性在于,一定程度上依附于其他产业存在,现实的情况是语音技术正在渗透到越来越多的细分行业。讯飞恰恰摸清了行业发展的规律,15年来专注做好一件事,紧盯语音产业下工夫,与高校院所携手保持国际领先研发优势,语音应用系统、语音支撑软件、语音基础研究,造就了讯飞的语音产业链。从PC到手机、电视,从电信、金融等企业和家庭用户,从普通话到方言,多元化的产品和服务满足不同的应用环境和人群。

    从草根明星蜕变为国家级骨干软件,独特的商业模式、持续的技术创新和前瞻的科研攻关,或是讯飞成为国内智能语音行业领跑者的启示。

京ICP备06005116