2014年08月20日 星期三
来自加拿大的文本分析引擎技术

 ■技术点评 

    点评机构:北京大学技术转移中心

    点评人:高炎 黄牧青 刘笑一 李士杰

    出镜主角:随着文本信息的不断增长,人们对文本信息的有效管理和汇总工具的需求也日益增长。著名的滑铁卢大学模式分析与机器智能(PAMI)实验室中,研究人员开发了一种文本分析引擎,可从自然文本中提取出最重要的概念,并区分非重要术语,并把握表示文本意义的概念型术语。该方法可分为多个步骤,使用自然语言分析方法,根据句子中出现的动词将每句话分解成多个短语。然后再使用自然语言分析确定在句意表达方面一个句子中重要和不重要的措辞。然后结合WordNet数据库,根据其同义词或相关项将提取的关键词总结为新概念。这一步骤总结了句子的基本思想或含义,然后利用排名系统根据含义的相关性将句子进行分类。最后,该方法根据这一智能自然语言分析生成文件摘要。

    技术评估:这一文本分析引擎最大的特点是可以进行语义分析和情感分析,这是目前主流的搜索引擎(如Google、百度等)所不能做到的。

    在一个社会网络中常有节点之间的信息交流。可以对这种社会网络进行分析的一种强大的用来获得和理解文本信息的技术被称为语义网消息传输分析(语义分析)。通过可灵活扩展的语义解决方案,自然语义分析可以实现情感分析、相似话题聚类、典型意见抽取、过滤噪音歧义,在市场研究、舆情监测、电子商务、金融投资等领域都可以都到广泛的应用。

    情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。文本情感分析的应用非常广泛,可以应用到许多行业,其中最重要的几个应用包括:实现情感机器人,自动提供抉择支持,网络舆情风险分析,信息预测等。

    潜在应用:情感分析、企业反馈管理、企业内容管理。

    市场分析:文本分析技术是搜索引擎的基本核心技术之一。通过文本分析,理解文章或信息的基本含义,搜索引擎中的网页快照就是文本分析形成概括性总结的实际应用案例。

    随着移动互联网和社交网络的大发展,文本分析技术的应用范围被大幅度的扩大了。因为移动互联网和社交网络的大量信息都可以跟“人”直接联系起来,通过对用户发布的信息进行分析,可以得出用户画像,更能清晰的刻画用户的特征,这使得企业的营销更能有的放矢。

    美国医疗保健机构BJC HealthCare目前正采用自然语言处理和文本分析技术,加快对临床研究文件的分析和整合工作。作为IBM智能医疗解决方案创新举动的一部分,IBM现在正与WellPoint公司展开合作,计划将文本分析和Watson超级计算机的核心功能之一自然语言处理能力,共同应用于癌症研究工作。现在许多IT组织都依赖于使用文本分析来挖掘其80%的非结构化数据。

    投资建议:

    借助互联网和移动互联网,滑铁卢大学的文本分析引擎具有独立产品化的可能。如,基于文本的语义分析,可以为政府、企业建立舆情监测系统,了解新闻事件所造成的实时影响;基于情感分析,可以判断用户对企业的品牌、产品的偏好度,为精准营销提供支持,开发营销分析引擎;也可以与企业内部的人力资源管理相结合,通过员工的社交网络、谈话内容判断员工的压力程度,及时进行心理干预。

    投资模式建议可考虑投资创业团队的方式。

京ICP备06005116