您当前的位置: 首页 >> 排行 >  >> 
依托数字技术让古籍中的文字活起来!“尚古汇典”平台将汇聚超百亿字文献
来源:文汇网      时间:2023-08-25 19:13:38

历经三年计划与建设,“尚古汇典·古籍数字服务平台”8月25日正式亮相。作为“2021—2035年国家古籍工作规划”重点项目,该平台由上海世纪出版集团规划设计、上海古籍出版社具体实施打造,依托古籍OCR识别、大数据、人工智能等数字技术,为古籍整理出版者、古籍专业研究者以及传统文化爱好者提供数字服务,赋能古籍整理出版、学术研究和国学传习。目前,已上线“典籍整理文献数据库”和“中国地方文献总库”。

其中,“典籍整理文献数据库”第一、二期上线1677种图书共5亿字,内容主要涵盖上海古籍出版社的核心整理文献,如“古典文学丛书”、“十三经译注”、“商周青铜器铭文暨图像集成”系列等,所收资源完整保留了图书的前言、注释、校勘等整理成果,数据准确,内容权威。预计明年还将继续扩充第三、四期,总量将达10亿字。


(资料图)

“中国地方文献总库”目前上线的是上海文献总库一期,共共计收录88种图书4000万字,内容以上海古籍出版社、上海市地方志办公室整理出版的《上海府县旧志丛书》为基础。

“尚古汇典”为用户打造多样化、便利化、个性化、舒适化的四重阅读体验,分为文本阅读和图文对读两种方式,内设“复制文字”、“引用复制”、“书内搜索”、“库内搜索”、“笔记”、“查询字典”等丰富选项。

此外,检索是另一不可或缺的关键功能。平台目前提供普通检索、高级检索和图书检索三种模式。检索方案扫除了繁简字、异体字,同义词、字图字关联等障碍。检索速度方面,网速正常的情况下,可以实现百亿字检索响应时间低于秒。

“尚古汇典”平台进入端口为:。个人用户注册并登录后可免费检索,查看正文需要授权,凭上海书展二维码可以领取2个月免费试用权。机构用户使用环境如覆盖在该机构IP下,登录个人账号后,即可自动获得相应权限;如需通过机构账号登录,则在登录个人账号后,可点击登陆页面的“机构登录”或具体数据库页面的“机构账号登录”,输入机构账号、密码进行登录。

上海古籍出版社成立于1956年11月,至今60余年。目前累计出版图书万余种,近些年每年出版新书约400种,重印书五六百种。“我们的出版范围既包括大型文献如《四库全书》《续修四库全书》《清代诗文集汇编》等,也有耕耘很久的重点特色文献如法藏敦煌项目、简牍系列等,更有整理本古籍代表、持续出版几十年的《中国古典文学丛书》。此外,还有获得国家出版基金资助的中型资料集成性图书、大家文集、地方文献等系列。”上海古籍出版社社长吕健表示,历代上古出版人的心血积累,为古籍数字化工作提供了厚重家底。在这个坚实的基础上,“尚古汇典”平台应运而生了。

在当天举行的“尚古汇典”平台发布会上,复旦大学图书馆馆长陈引驰、武汉大学图书馆馆长董有明、北京大学中国古文献研究中心副主任杨海峥、华东师范大学中文系副主任方笑一等专家学者纷纷表示,将古籍以数字化的方式展示出来,便于读者阅读与检索,对于传统古籍进一步挖掘和充分利用有重要的意义,有助于实现“让古籍中的文字活起来”。

上海世纪出版集团总裁阚宁辉透露,目前,“尚古汇典”平台的发布是一个阶段性的成果,将来会有更多的产品、更多的工具、更多的场景、更多的子项目持续地推向市场、推向大众,供学界和社会各界使用。中华优秀传统文化的传播,并非是幽径,而是通途,需要广大专家学者的提携和支持。未来,“尚古汇典”平台还将在内容上继续吸收高质量的古籍文献,除了上海古籍出版社的已有内容外,还会囊括世纪出版集团内外相关出版社乃至长三角地区的古籍出版资源,并逐步开发更多的、具有特色的专题数据库,预计总规模将超过100亿字。在技术上发展除OCR以外的人工智能、大数据等古籍数字化关键核心技术,改进古籍整理出版作坊化的生产模式,缩短古籍知识生产周期,以达到升级古籍知识生产模式、知识服务模式的最终目标。商业运作方面,除针对B端等机构用户和C端个人用户的数据库销售外,还会利用平台模块化的技术开发能力,为机构和重大社科项目提供技术开发和优质数据加工等服务。

作者:李婷

编辑:王筱丽

责任编辑:邢晓芳

*文汇独家稿件,转载请注明出处。

标签:

X 关闭

X 关闭