由首都师范大学电子文献研究所、中国诗歌研究中心举办的第七届中国古籍数字化国际学术研讨会于2019年9月20-21日在北京召开。会议主要围绕人工智能时代中文古籍数字化等下列议题展开交流探讨:
1.大数据与人工智能对中文古籍数字化的影响
2.移动终端环境下古籍数据库应用开发与设计
3.中医古籍、谱牒文化、古典小说等专题数据库建设
4.四库全书数据库建设
5.古籍数字化教学与人才培养
6.古籍数字化公共资源与知识产权研究
【照片来自国学网】
北京书同文公司应邀参加了这次会议,其间张轴材老师作了“应用 AI 改进古籍数字化工具初探”发言。下面是发言提要:
各位专家、各位同行,各位代表,大家好!
非常荣幸有机会与大家一起参加这个研讨会。诗经说“靡不有初,鲜克有终”,一个非政府的、非赢利的、纯学术的论坛,两年一次,持续了 14 年;越开越深入,持之以恒,实属不易,首都师大、国学网功莫大焉!我向他们致敬、表示衷心的感谢!
继 1997 年-2000 年推出《文渊阁四库全书》全文检索版后,书同文公司与同行及用户们从事古籍数字化二十余载,开发了多个有规模的古籍全文数据库系统。近几年古籍数字化从初级阶段进入了“古籍数据化”、“古籍智能化”的新阶段。“数字人文”迅速升温,人文工作者的需求越来越高。在大数据、人工智能热的感召下,直白点,“忽悠”之下,我们小公司也做了一些初步的尝试,比如:
⚫ 历史寻迹-AI 驱动历史知识图谱大网络生成
⚫ 明清档案 – 数据分析(谕旨时空统计分析)
⚫ 历代人物可视化图谱
⚫ 我们还创意提出了古籍词频年代-经史子集向量的概念与实验
⚫ 我们提供了古籍的多维检索工具,十几年前我们亦曾尝试自动提取全文数据中的人名、地名、职官名、中草药名等,试图打通数据之间内在的相互联系,实现由此及彼、由表及里的智能助读效果。可以说是 AI 助读的雏型吧。
业界的武林高手,除了开发电脑楹联、吟诗作赋这些令人眼花缭乱的成果,还在古籍自动句读、自动分词方面进行了有成效的探索。然而,书同文公司认识到,人工智能在古籍数字化和数字化古籍的应用,还处于非常非常初级的阶段。一切研究、一切应用的基础应是不断扩充的“精准而有规模的数据集合”,如何利用人工智能技术推进这个大数据的进程,是夯实基础的艰巨任务。
书同文的初探表明,对一手的古籍善本珍本图像的版面分析仍是绕不过的第一道坎儿;字、词、语、篇、典、库,字是基础,字的高效识别则依然是第二道关。
去年三月的上海数字汉学会议,提出了共同做好数字汉学基础设施建设 Digital Sinology Infrastructure 问题。我认为,这对于我们时而发热的头脑,不啻是一帖清醒剂。数据,数据,基础,基础!我们必须继续对此发力。
AI 对古籍汉字识别能力的提升作用,针对这一关坎儿,如何改善古籍的自动版面分析,如何利用神经网络提高古籍 OCR 云服务质量和效率,书同文公司进行了一定规模的实践,开发了“i-慧眼”等数字化新工具、新服务。下面将结合演示与各位专家分享此领域的初步成果,并共同探求后期 AI 对古籍数字化工作可支撑的着力点。
2019年2月22日 新春长假刚过,中宣部出版局就召集相关专家和从业机构召开了有关古籍数字化发展的座谈会,书同文公司受邀参加了此次会议。公司总裁张轴材先生做了书面稿发言,特发表于下:
各位下午好!我是张轴材。从1997年创立书同文公司、主持《文渊阁四库全书》电子版工程始,带领一帮“子弟兵”从事大规模古籍数字化逾22载,在这个文理交界的边缘地带、狭窄的垂直市场埋头苦干,从来都是海内外学界、出版界、图书馆,也有政府职能部门来关注,今天受到中共中央宣传部的重视,感到这个事业犹如上了一个档次。本应前来认真听取同行介绍,汇报我们的经验和教训(可能教训多于经验且重要一些),聆听领导的指示,无奈接获通知太晚,未及到会,只能匆匆扼要汇报几点想法。细节请公司主管用PPT演示说明。
古籍数字化,国家的重视力度还需大大提升。民间虽有首都师大国学、国际有哈佛中心(上海)等坚持召集业界专家学人交流,隔一两年一次,颇有促进;但均偏于或内容,或技术,鲜有政策层面、典籍数字化的方略的研讨。
古籍整理和汉字整理是既相联系又相区别的大项目,不可混为一谈。字、词、语、文、典,字为基础,基础不稳,数字化典籍质量受限。恕我直言,汉字整理,不可脱离国际标准化的轨道,缺乏科学的、公认的“汉字认同规则”,片面追求汉字数量之巨,立大项目、徒花巨资,国家项目的投入只能打水漂。希望引起有关部门的重视。我从事国际标准汉字代码统一工作达16年,此后又卷入国际网络域名“变体字”规则研究十余年,经验教训多多,希望局外人拨冗倾听。
文字,包括汉字,汉籍是国际的文化遗产,有的“实体”可能有所有权或版权,但是作为内容,则是无所有权或独占权(Ownership)的,你不开发,你没采用新技术,别人会采用,你也阻止不了。一位老美的汉字网站,应当使我们汗颜,使我们深思。
古籍数字化专有版权不被认可,这是大问题,怎么保护、怎么转换价值、怎么持续发展?我们书同文公司持有近40个软件版权,包括数字化典籍专有版权,且不要说数据被盗无处投诉;你要去抵押,一分钱也抵不了。这个政策性问题,特别是对民营小科技公司,是个发展的致命问题。很多好的项目、技术开发无法持续进行。
书同文公司的古籍数字化年策略,是季羡林先生所称,“让文史工作者如虎添翼”,我们尽可能地提供高质量的数字化内容和工具,让更多的文史工作者、党政工作者、普通知识分子分享传统精品,善本原文及文本的链接,提供寻经问典和考证溯源的捷径;虽然我们已经可以提供“三维助检”,日后某天,你还会看到我们利用AI的“古籍助读工具”,但我们绝不可能越俎代庖,我们期望学界、技术界、出版界的广泛合作,发挥我们的所长,把古籍数字化推向一个更新的、全球化的水平。
2018年3月14-16日在上海的哈佛中心召开了“汉学数字基础建设研讨会”。看,哈佛已经把手伸到上海了。别以为这个中心是在绿草如荫的校园,实际是在陆家嘴那个充满贵金属味道的地方-上海国金中心汇丰银行大楼5层。
度娘上一查,难怪! “哈佛中心(上海)于2010年3月正式成立,此举象征着哈佛大学在中国乃至全亚洲的事务上迈出了至关重要的一步。由哈佛商学院和哈佛中国基金牵头创建,哈佛中心(上海)旨在为哈佛大学的全体教员、学生以及校友提供优质资源。”
这次会议汇集了来自两岸三地、美、日的文史专业的数字化研究学者和商业机构的各路精英人士。
书同文公司作为特邀商业机构,参加了这次会议。公司总裁张轴材老师做了《从事国际标准化与大规模典籍数字化经验教训谈》的精彩报告。他回顾了公司从“两个《四》(即四库全书、四部丛刊)” 开始,走向更广阔的中华典籍世界的艰难历程。随后他结合20年来的业界经验谈了多个方面的观点。
他的发言获得了与会者的高度认同。通过这次会议,各方充分交流了发展思路、框架设计、工作进展,相信今后还会进一步厘清思路,订立一些可持续发展的机制,支持这些数字系统,为支持各种复杂数字工具和平台发展、维护和相互操作的技术性和制度性的建立奠定基础。
文中照片多为与会者微信群上传, 特此致谢!!!
各位专家读者:
欢迎您使用新版书同文古籍库(V3.2)。为保障您更加顺利地使用数据库,请使用①现代浏览器Chrome、Firefox、Safari等等;②IE需要IE9及以上版本;③国产浏览器360、搜狗等(请使用急速模式)。
在新版书同文古籍库中,我们
如有额外使用功能需求,点这里,给我们留言,留下您的联系方式,我们会给您最满意的答复。
再次感谢您长期对书同文的关注。
北京书同文数字化技术有限公司
各位专家读者:
欢迎您使用新版书同文古籍库(V3.1)。为保障您更加顺利地使用数据库,请使用①现代浏览器Chrome、Firefox、Safari等等;②IE需要IE9及以上版本;③国产浏览器360、搜狗等(请使用急速模式),并确认下载了大字符字库。
在新版书同文古籍库中,我们
如有额外使用功能需求,点这里,给我们留言,留下您的联系方式,我们会给您最满意的答复。
再次感谢您长期对书同文的关注。
北京书同文数字化技术有限公司