说起杭州这座城市的“珍宝”,很多人会想到美丽的西湖、古老的运河、优美的丝绸。还有一件重量级的宝贝,可能大部分人并不知。
清文澜阁《四库全书》零本
乾隆皇帝曾动用了3800名文人墨客,耗时近15年时间编撰的《四库全书》,200年前曾被收录在杭州文澜阁。100多年前因为战乱大部分流失。不过昨天,其中的一件“回家”了。
100多年前因为战争从杭州流失
近百年后出现在美国加州大学
对中国历史来说,《四库全书》有多珍贵?
除了耗费巨大的人力物力,共包含3500种书、7.9万卷、3.6万册,总字数多达8亿,是中国古代最浩大的文化工程。
为了更好地保存,《四库全书》前后抄缮七份,分别收录在“北四阁”和“南三阁”,位于杭州西湖孤山的文澜阁,就是“南三阁”之一,和北京皇宫文渊阁、北京圆明园文源阁等一起,被称为清代七座皇家藏书楼之一。
位于杭州西湖孤山的文澜阁
清朝末期,太平军进入杭州,文渊阁遭遇“灭顶之灾”,阁圮而书散,其中就包括了文澜阁本《四库全书》。
杭州著名藏书家丁申和丁丙兄弟在逃难图中无意间发现文澜阁《四库全书》残编。据说当时,丁氏兄弟正好到西溪留下镇避难,有一天丁申买包子,无意间发现包物纸“皆四库书也”,于是兄弟俩决定救书。
经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消失在历史,再也找不到踪迹。直到100多年以后的1950年,《四库全书》之一的《宋百家诗存》,出现在了大洋彼岸——美国加州大学伯克利分校东亚图书馆里。
带有乾隆印章的《宋百家诗存》
《宋百家诗存》是清代曹庭栋辑纂的一部宋诗选集,被《四库全书》收录其中。
根据历史推测,文澜阁本《宋百家诗存》,可能经历了南浔嘉业堂、日本三井文库,最后来到加州大学伯克利分校。但它如何从嘉业堂流转到日本,已经无记录可寻。
理科生干起文科生的活
20万流失海外的古籍“回家”
流失海外100多年,昨天珍贵的《宋百家诗存》“回家”了。
打开一个叫“汉典重光古籍数字化平台”的网站,《宋百家诗存》出现在一堆古籍目录里,点击鼠标,就可以一页一页慢慢翻看,细细品味。古人的一字一句,真实地呈现在眼前。
和《宋百家诗存》一起回归的,总共有20万页的古籍善本。
两年前,阿里巴巴联合四川大学、美国加州大学伯克利分校,以及中国国家图书馆、浙江图书馆等,共同发起一项公益项目汉典重光,寻觅那些流散在海外的中国古籍,借助达摩院的AI技术,用数字化的方式让它们回归故土。
汉典重光古籍数字化平台
首批数字化的20万页的古籍,全部来自美国加州大学伯克利分校,包含40余种珍贵宋元刻本、写本。比如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等。
这些消失多年后的珍本,又重新回到了公众视线。古籍爱好者们可以通过汉典重光平台,方便地进行翻阅和检索。
达摩院AI对20万页古籍的识别准确率达到97.5%,不过,对古籍善本进行数字化并不容易,机器对于古籍文字的识别困难程度远远高于现代文。
美国加州大学伯克利分校先将20万页古籍一一扫描图片、编目数据,达摩院再将这些图片文字化。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。
即使同一个字,会涉及不同的字形,不同的字体。同一个字形,可能表意不同,对于AI来说,也是一个需要重新学习记忆的新知识。
达摩院技术团队与四川大学专家前后在杭州和成都开了不下10次会议,联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统。
以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天。如果用这套古籍识别系统只需要35天时间。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。
古籍数字化回归
让更多的人有机会看到古人真迹
中央文史研究馆馆员、四川大学教授陈力跟古籍打了一辈子交道,是汉典重光项目的重要推动者。在他看来,欣赏古籍善本,不仅仅是欣赏优美的文字,也是再现著作人的心路历程的过程。
据不完全估计,因为各种历史原因,散居海外的中国古籍超过40万部、400万册。对大部分中国人来说,看到这些老祖宗真迹的机会几乎为零。
去年,两册数百年历史的国宝文物《永乐大典》,在法国以5000欧元起拍,仅仅11分钟时间,以640万欧元的天价定锤,得主是中国的一位收藏家。
这个价格比起拍价溢价了超过1200倍。由于拍卖行佣金为27%,两册《永乐大典》最终成交价为8128000欧元(合近6500万元人民币),成为近年来海外中文古籍回归的一个标志性事件。
《永乐大典》付出了6500万元的代价回归故土,不过大部分散居在海外的文物和古籍,就没有那么幸运。
这些流传到海外的中国古籍,尤其是那些如今被视为善本的中文古籍,主要集中收藏在世界各地的图书馆、博物馆等机构,私人存藏的数量并不多。这也意味着这些古籍很少出现在流通市场,更不可能像《永乐大典》一样回归。
“数字化之后,普通人都可以很容易地查阅到这些珍贵的书籍。”陈力说。
而在加州大学伯克利分校东亚图书馆馆长周欣平看来,通过数字化,把流散在海外的珍贵的中国传统文化和古籍善本,和国内的老百姓见面,也是另外一种形式的“回家”。
“守护中华传世典籍,是科技工作者和文化工作者共同的使命。”阿里巴巴达摩院院长张建锋说,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。