第七届中国古籍数字化国际学术研讨会发言提要

      由首都师范大学电子文献研究所、中国诗歌研究中心举办的第七届中国古籍数字化国际学术研讨会于2019年9月20-21日在北京召开。会议主要围绕人工智能时代中文古籍数字化等下列议题展开交流探讨:


1.大数据与人工智能对中文古籍数字化的影响
2.移动终端环境下古籍数据库应用开发与设计
3.中医古籍、谱牒文化、古典小说等专题数据库建设
4.四库全书数据库建设
5.古籍数字化教学与人才培养
6.古籍数字化公共资源与知识产权研究

 

【照片来自国学网】


北京书同文公司应邀参加了这次会议,其间张轴材老师作了“应用 AI 改进古籍数字化工具初探”发言。下面是发言提要:

 

各位专家、各位同行,各位代表,大家好!

      非常荣幸有机会与大家一起参加这个研讨会。诗经说“靡不有初,鲜克有终”,一个非政府的、非赢利的、纯学术的论坛,两年一次,持续了 14 年;越开越深入,持之以恒,实属不易,首都师大、国学网功莫大焉!我向他们致敬、表示衷心的感谢!

       继 1997 年-2000 年推出《文渊阁四库全书》全文检索版后,书同文公司与同行及用户们从事古籍数字化二十余载,开发了多个有规模的古籍全文数据库系统。近几年古籍数字化从初级阶段进入了“古籍数据化”、“古籍智能化”的新阶段。“数字人文”迅速升温,人文工作者的需求越来越高。在大数据、人工智能热的感召下,直白点,“忽悠”之下,我们小公司也做了一些初步的尝试,比如:

⚫ 历史寻迹-AI 驱动历史知识图谱大网络生成
⚫ 明清档案 – 数据分析(谕旨时空统计分析)
⚫ 历代人物可视化图谱
⚫ 我们还创意提出了古籍词频年代-经史子集向量的概念与实验
⚫ 我们提供了古籍的多维检索工具,十几年前我们亦曾尝试自动提取全文数据中的人名、地名、职官名、中草药名等,试图打通数据之间内在的相互联系,实现由此及彼、由表及里的智能助读效果。可以说是 AI 助读的雏型吧。

   业界的武林高手,除了开发电脑楹联、吟诗作赋这些令人眼花缭乱的成果,还在古籍自动句读、自动分词方面进行了有成效的探索。然而,书同文公司认识到,人工智能在古籍数字化和数字化古籍的应用,还处于非常非常初级的阶段。一切研究、一切应用的基础应是不断扩充的“精准而有规模的数据集合”,如何利用人工智能技术推进这个大数据的进程,是夯实基础的艰巨任务。
      书同文的初探表明,对一手的古籍善本珍本图像的版面分析仍是绕不过的第一道坎儿;字、词、语、篇、典、库,字是基础,字的高效识别则依然是第二道关。

  去年三月的上海数字汉学会议,提出了共同做好数字汉学基础设施建设 Digital Sinology Infrastructure 问题。我认为,这对于我们时而发热的头脑,不啻是一帖清醒剂。数据,数据,基础,基础!我们必须继续对此发力。


AI 对古籍汉字识别能力的提升作用,针对这一关坎儿,如何改善古籍的自动版面分析,如何利用神经网络提高古籍 OCR 云服务质量和效率,书同文公司进行了一定规模的实践,开发了“i-慧眼”等数字化新工具、新服务。下面将结合演示与各位专家分享此领域的初步成果,并共同探求后期 AI 对古籍数字化工作可支撑的着力点。