俄罗斯圣彼得堡国立经济大学学生体验方正阿帕比全民阅读机 |
文·本报记者 管晶晶
6月26日,中华数字书苑再次被作为国礼,送给俄罗斯。这对北大方正集团数字出版技术国家重点实验室主任、北京大学计算机技术研究所研究员汤帜来说,已经不是什么新鲜事了。2009年2月,时任国家总理温家宝首次向英国剑桥大学赠送中华数字书苑,迄今,中华数字书苑已经第15次成为国礼。
与传统的丝绸、瓷器等不同,中华数字书苑是持续出现在国礼上的第一个数字资源产品。这也表明了我国数字出版技术的先进程度。
不过,数字出版技术国家重点实验室的研究内容可不止于这些。该实验室结合国家数字出版领域的发展战略和应用需求,重点研究数字出版领域中结构化版式文档技术、自动排版技术、数字出版内容的自适应重组技术等关键技术,促进数字出版产业的技术进步,并在电子书、数字报等领域进行产业化转换和推广,推动数字出版产业相关标准的制定。
CEBX技术堪称“中国的Adobe”
随着移动互联网的兴起,移动阅读逐渐成为大趋势,人们随时随地使用手机、PAD、kindle等终端进行阅读,但是其终端呈现格式却纷繁杂乱。PDF、EPUB、TXT、HTML等格式无一具备在电脑等大屏幕上保证美观排版的同时,又可以在手机、PAD等小屏幕上根据屏幕大小自动换行和重排的功能。
“我们的CEBX技术在版式和流式的融合技术方面是领先的,既可以实现原版原式,又可以支持流式阅读。”汤帜告诉科技日报记者。
CEBX是方正研发的新一代普适性文档技术,可以做到复杂排版情况的矢量处理,如数学公式、化学公式、物理公式。
目前,国内比较流行的阅读呈现格式主要有两种,PDF格式主要呈现书籍报刊的版式,EPUB格式主要用于手机等小屏幕的移动阅读。这两种格式都是由美国的公司主导开发,市场份额巨大。但是这两项技术并不能很好的融合起来。为满足不同终端的阅读需求,出版社需要生成多种格式的电子图书或数字报纸,读者也需要在使用不同屏幕阅读时安装不同的阅读器,甚至需要转换文件类型,非常不便。
“PDF只能做版式,EPUB只能做流式。如果在手机上看原版原式的书籍报刊,需要不停地左右移动才能看全文章。如果在手机上看EPUB格式的书,尤其是在手机上看到的公式、表格等等,发布者一般都需要把它们做成图片格式,用户放大查看又会很模糊。”汤帜指出了开发CEBX技术的初衷,“所以,我们从源头上考虑开发一种文件格式,把版式和流式阅读能够绝佳的融合到一起。”
CEBX采用“容器+文件”的方式来描述和存储数据,容器就好像一个虚拟存储系统,将各类数据描述文件组织起来,并提供特定的访问控制接口。在CEBX中,数据描述采用XML技术,以版式描述信息为基础,辅以版面对象的结构化信息,然后通过压缩和加密方法放入容器中。基于结构化信息可以实现版面内容的重排,从而获取更好的屏幕自适应特性。
“一个文档能够同时支持PC、手机、平板电脑、电子阅读器等终端的阅读,可以实现一次制作、多平台多次利用,既可以原版原式地显示或打印,又可以在移动设备上更好地实现高质量的屏幕自适应和实时排版,提供完美的移动阅读体验。”汤帜说。
自动排版技术助力“全民阅读”
今年6月,方正阿帕比全民阅读机系统发布;而此次与“中华数字书苑”共同作为第15次“国礼”的就是这款新产品。目前的全民阅读机具备基础版和扩展版两个版本。基础版由触摸屏、标准化的数字资源、标准化的界面、阅知盒子等组成,适用于大型文化推广项目,大量部署于场馆、社区、街道等地,内容由项目负责人统一挑选,安装、维护便利。扩展版由触摸屏硬件和能自定义的系统和能自由选择的资源组成。拓展版全民阅读机的系统不仅具备资源展示阅读和推送功能,还可以加入资讯发布、单位介绍、楼宇导航、馆藏查询、预约等多种展示与交互的需求。拓展版全民阅读机的资源类型不仅包括基础版的电子书、数字报,还包括图片、视频等其它资源,且通过知识服务数字挖掘技术,能够实现包括专题在内的内容运营服务,同时资源数量上还能与中华数字书苑全库的海量资源对接。扩展版全民阅读机更适用于图书馆、企事业单位等有比较多个性化展示需求的机构。
表面上看,承载这些功能的只是一个小小的阅知盒子和触摸屏硬件;而这背后的支撑却是实验室多年研发的自动排版技术。
自动排版技术主要研究内容是,将结构化或半结构化的数字内容与版面样式结合,对排版结果进行智能化的校正,最后输出适合不同发布渠道需要的排版结果。同时要保证制作结果的标准化和高质量,与专业交互式制作系统所达到的水准相一致。
各图书馆可以根据实际情况选择不同尺寸的触摸显示屏,读者使用的手机、PAD也是大小各异。怎么能让不同终端上显示的电子书都排版精美,且符合中文使用习惯?自动排版技术功不可没。
“全民阅读机迎合了移动互联网时代下,读者对多屏资源展示、多屏互动分享、移动阅读的需求。图书馆使用的屏幕大、分辨率也高,导致数据显示时需要生成的数据量大,自动排版技术会根据不同屏幕分辨率大小,自动计算适合在屏幕上显示的文字数量,对全文内容进行重新排版,以舒适的方式最终呈现给读者。”汤帜介绍道。
知识内容重组技术打造“知识图谱”
15次成为国礼的中华数字书苑是方正阿帕比推出的专业优质华文数字内容整合服务平台,收录了250万本电子书,500多种报纸,3000万篇新闻,2000多种工具书,2000多种年鉴,35万张艺术图片,11000多集高教视频和10000张中国对外经济贸易数据。
但它不只是简单存储和提供文献及信息资源,更重要的是“利用知识服务技术将有关的知识关联起来,有机地组织起来。”
汤帜在手机上输入了“秦始皇”,立刻出来了一张有关秦始皇的“知识图谱”,除了秦始皇的生平、事迹等,还有各种关联知识,如与秦始皇相关的人物、秦国的知名人物、研究秦始皇的文献资料等等,仿佛打开了若干条“知识通道”,可以任选一条“边走边学”。
这种“知识图谱”在未来的需求也许会越来越多。业内人士介绍,国际上一些优秀的出版公司,已经将盈利模式转向为特定读者提供需要的知识解决方案。在数字出版时代,出版单位也迫切需要有效地管理和使用出版者的数字资产,以便重新整合成新的产品,并提供个性化出版服务。因此,实验室研究数字出版中各种内容的存取、访问、检索、安全控制等技术和标准接口,在此基础上进一步研究数字出版的内容重组技术,建立起动态数字出版的内容处理框架体系,为动态的多形态数字出版系统提供统一的平台支撑。
汤帜向记者介绍说:“知识服务技术主要是通过‘语义搜索’在海量的文献和信息资源里挖掘出最可靠、最相关的内容,并将这些内容进行分析、整理、提炼、重组,以揭示其隐含的知识内容和知识关联,帮助人们更好地、更高效地工作和学习。”