2014年12月04日 星期四
维吾尔文将不再难认难懂
高性能维吾尔文识别和理解系统通过鉴定

    科技日报讯 (记者左常睿)维吾尔文识别和维汉翻译理解问题曾经困扰业界多年,现在终于被我国科学家攻克。12月1日,由教育部组织在北京清华大学召开的 “高性能维吾尔文识别和理解系统”科技成果鉴定会上,鉴定委员会主任、中国工程院院士倪光南宣布:清华大学丁晓青教授科研团队首次实现了维吾尔文无切分识别并创建了维汉识别理解一体化系统,总体达到国际领先水平。

    自2011年起,在国家自然科学基金重点项目支持下,清华大学电子工程系在连写民族文识别问题上深入钻研。科研团队摒弃了原有的基于字符切分的维吾尔文识别方法,在基于隐含马尔可夫模型的无切分维吾尔文识别技术上进行了创新,提出了维汉对照关键词检索的跨语言理解方式。同时由新疆大学负责研发维汉全文翻译技术,北京文通科技有限公司负责实现系统架构和网络服务平台,最终研制成功“高性能维吾尔文识别与理解系统”。

    据课题组成员、清华大学电子系彭良瑞副教授介绍,维吾尔文是不同于汉字和拉丁文字的拼音文字,其外形和结构的变化很大,单词内字符连写,且相似字不易辨别,为维吾尔文识别带来相当的困难。

    “这一系统首次实现无切分连写维吾尔文识别,并在统一系统框架中首次实现了维吾尔文识别和翻译理解无缝连接,解决了维吾尔文的文档经扫描图像识别输入计算机以及以汉语为目标语言的跨文种输出难题。”彭良瑞说。

    据介绍,该系统可广泛应用于维吾尔文办公自动化、电子出版、互联网信息资源建设。这一科研成果的取得为我国新疆地区的民族文字文档建立开辟了先进的数字化大道,并且加强了以汉语为目标语言的跨文种交流方式,有利于促进民族文化交流。

京ICP备06005116