中国古籍一直面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示,我国现存古籍有20万种,其中有数字化扫描影像的有8万种,而实现文本数字化的仅有三四万种左右,这对于古籍内容检索和开展研究造成了不便。
3月17日,字节跳动向北大教育基金会提供捐赠,全面支持北京大学—字节跳动数字人文开放实验室的工作,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。
该数字人文开放实验室将调动国内外的相关力量,在3年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,提供开放、体验良好的阅读服务和基本文本库,并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。
项目也将推出结合OCR(指对文本资料进行扫描后,对图像文件进行分析处理获取文字及版面信息过程)、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台,并对社会大众免费开放,便于收藏机构、研究者、相关专业师生和广大古籍爱好者自行完成古籍数字化工作,加快整个行业数字化古籍资料的效率。
该数字人文开放实验室重视传承中华传统文化,希望将平台建设成为开放、共享、可对古籍进行充分检索利用的信息平台,以应对古籍保护与利用中的挑战。
字节跳动人工智能实验室总监李航表示,希望与北大跨学科团队在OCR、自然语言处理、知识图谱等技术领域展开全面合作。