中日线上业务交流报告——通过馆藏文献数字化和全文OCR数据制作开拓图书馆服务新场景以及下一步工作展

日本国立国会图书馆电子情报部副部长 木目泽司
2022年11月30日

  序言

  为促进信息资源与知识活动有效结合,我馆制定出台了《日本国立国会图书馆愿景2021-2025:日本国立国会图书馆的数字化转型》(以下简称《愿景》),部署了七个方面的重点任务。其中:

  “重点工作2:丰富网络共享资源”提出,要不断充实数字馆藏,使公众通过互联网或附近的图书馆就能够利用到丰富的数字资源。

  “重点工作3:推进无障碍阅读”提出,要推进无障碍阅读,为视觉障碍者等制作、收集和提供无障碍格式图书,并为其他机构制作方便视觉障碍者使用的文本数据提供支持和帮助。

  “重点工作5:加快推进馆藏文献数字化”提出,在未来五年内完成100多万册件馆藏文献的数字化加工工作,同时积极推进全文文本数据加工工作,为开展检索与机器学习提供基础数据。

  今天我报告的内容是馆藏文献数字化和全文OCR数据制作,这也是推进《愿景》各项重点任务的两大基础支撑。

  今天的报告内容

  首先,我简要介绍下今天报告的主要内容。

  我的报告分为三个部分:第一部分是通过馆藏文献数字化开拓图书馆服务新场景;第二部分是通过全文OCR数据制作开拓图书馆服务新场景;第三部分是未来工作展望。

  一、通过馆藏文献数字化开拓图书馆服务新场景

  本部分包含两个方面的内容:(一)是馆藏文献数字化工作,(二)是丰富网络共享资源。

  (一)馆藏文献数字化工作

  自2021年度以来,日本国立国会图书馆的馆藏文献数字化工作实现了飞跃性发展。2020年度,我馆获得了约45亿日元的数字化预算经费。2021年度,又获追加补充预算约38亿日元。2021年度,在结转的上一年度补充预算以及当年通常预算拨款支持下,我们完成了40万册馆藏文献的数字化加工,包括日本国内出版图书、期刊、报纸、古籍、地图、录音资料、影像资料、博士论文等。其中,日本国内出版图书的数字化版本均已通过互联网向社会公众公开。截至目前,日本国立国会图书馆在互联网上公开发布的数字资源总量已达311万册件。截至2022年度末 ,我们将加工完成32万册图书,以及一些其他类型的文献。通过两年的努力,到2022年度末,日本1987年之前出版的国内图书将全部基本完成数字化。《愿景》制定出台之前,只有1968年之前出版的日本国内图书完成了数字化加工。这就相当于,我们只用两年的时间就将约20年间(1969-1987年)出版的日本国内图书全部进行了数字化。

  数字化业务是主要委托给了专业外包公司,但还有一些拍摄难度大、纸张严重劣化、不适合交给外包公司加工的文献,则由我馆工作人员来进行操作。去年,日本国立国会图书馆在东京本馆设立媒体转换室,配备了大型扫描仪等机械设备,工作人员可以根据需要灵活地开展数字化工作。

  读者只要点击访问“日本国立国会图书馆数字馆藏”页面,就可以获取到这些数字化文献。

  (二)丰富网络共享资源

  著作权保护期满以及取得著作权人许可的馆藏文献的数字化版本已发布到互联网上,其他的数字资源则只限馆内使用,后者中包含了大量绝版书之类难以从市面上获取到的书籍。自2014年1月起,读者可以利用图书馆数字化文献传递服务(即“图书馆数字传递服务”)来获取利用这些资料。截至2022年9月,“图书馆数字传递服务”的成员馆共有国内1383家、国外6家。

  受新冠肺炎疫情影响,大学图书馆等文献提供机构纷纷闭馆。在此背景之下,为了有效保障公众获取信息的需求,日本政府于2021年修订了《著作权法》,将“图书馆数字传递服务”的服务对象由图书馆扩大到了个人。2022年5月,日本国立国会图书馆启动实施了面向个人的数字化文献传递服务(即“个人数字传递服务”)。只有在日本国内居住的我馆注册用户才可使用该项服务,使用时必须接受并遵守相关条款。这样一来,读者不用亲自到馆就可以获取利用到209万册件的数字资源,其中除了发布到互联网上57万册件文献外,还包括152万册件绝版书等难以从市面上获取到的文献。2021年度加工完成的数字化文献,经过确认可获取性之后,自2023年起即可向个人用户提供数字传递服务。目前,这些文献只能提供流媒体阅览,“日本国立国会图书馆数字馆藏”系统平台将于今年12月完成升级改版,自2023年1月起向社会公众提供打印服务。自今年5月19日启动实施以来,“个人数字传递服务”引发社会各界热烈反响,截至9月末,服务读者约6万人次,传递文献总量达125万册次。日本人口只有中国的十分之一左右,这么换算一下就可以了解文献传递量还是相当大的。在不到五个月的时间内,“个人数字传递服务”的文献传递量就达到了“图书馆数字传递服务”全年文献传递总量(约31万册次)的4倍以上。

  二、通过全文OCR数据制作开拓图书馆服务新场景

  首先,我先向大家汇报一下日本国立国会图书馆的全文OCR数据制作工作进展情况,然后介绍通过全文OCR数据制作来拓展图书馆服务内容的相关情况。

  (一)日本国立国会图书馆的全文OCR数据制作工作进展

  首先,我简要介绍下日本国立国会图书馆应用OCR(Optical Character Recognition,光学字符识别)文字识别技术开展的全文文本数据制作工作的进展情况。

  早在2010年,日本国立国会图书馆就启动了“全文文本化实证实验”项目,该数字化文献全文OCR数据制作项目跨时两年完成。

  2011年,日本国立国会图书馆成立下一代系统开发研究室。2013年,面向视障群体试行开展了数字有声书提供服务,应用商用OCR文字识别软件将文本转换成语音,然后以音频文件的形式提供给视障人士。当时的结果显示,OCR的文字识别准确率还比较低,直接将未经校验的文本内容转换为语音,还存在不少问题和障碍。

  虽然直接转换为语音存在困难,但将未经校验的文本内容仅利用于检索的话,基本上没什么问题。因此,我们于2014年搭建了“NDL实验室检索”系统平台(非公开)并开展了系统验证,应用商用OCR文字识别软件将一部分馆藏数字资源的图像转换成文字,并进行全文检索。2016年,“日本国立国会图书馆东日本大地震数字存档”(昵称“雏菊”)系统平台引入全文检索功能,约2000种地震灾害文献实现了全文检索。当时,OCR文字识别技术、检索利用技术和片段显示技术均获得了授权许可。

  2018年修订的《著作权法》规定,日本国立国会图书馆在未经许可的条件下,可以制作馆藏数字资源的全文OCR数据并在检索结果界面显示文本片段。基于该项规定,我们启动了全文文本数据应用系统开发和服务项目。首先,从馆藏文献中遴选出著作权保护期满的部分文献,利用商用OCR软件开展全文文本识别,然后将文本数据导入“下一代数字图书馆”系统平台,2019年3月上线试运行。此后,我们又将在“下一代数字图书馆”中积累的实践经验应用到“日本国立国会图书馆数字馆藏”的系统建设上,在应用中加入了数字资源全文检索功能,并利用商用OCR软件开展全文文本识别。截至2021年,可提供全文检索的数字资源总量达到了4.6万件左右。

  关于应用现有的AI-OCR文字识别软件制作全文文本数据的工作进展情况,我在这里先简要说两句,后面再做详细汇报。利用2020年度下拨的馆藏文献数字化补充预算经费,我们应用现有的基于AI(机器学习)技术的AI-OCR文字识别软件,加工完成了247册件数字化文献的全文文本数据,将其中著作权保护期满的28万册图书的全文文本数据灌装到“下一代数字图书馆”系统中,并上线测试了全文检索功能。另外,我们还自主研制了日本国立国会图书馆可以自由使用的OCR文字识别程序(NDLOCR),2022年已作为开源软件发布。

  (二)下一代数字图书馆(测试系统)

  “下一代数字图书馆”测试系统搭载了下一代系统开发研究室自主研制的功能模块,旨在验证全文文本检索功能以及基于机器学习技术的新型检索功能等的有效性。

  “下一代数字图书馆”中收录的数字资源总量约33万册件,均为已在“日本国立国会图书馆数字馆藏”中公开发布、超过著作权保护期限而进入公共领域的图书和古籍,其中的28万册图书提供全文检索服务。

  此外,图像自动抽取技术、以图搜图技术等先进技术也在“下一代数字图书馆”中实现了应用。其中,图像自动抽取功能可从数据库中自动抽取出图像(图表、插图、照片等)并在文献检索结果界面予以集中展示,以图搜图功能可从数据库中查找出相似的图像(图表、插图、照片等)。下一步,我们计划借助这些先进技术,加快推进“日本国立国会图书馆数字馆藏”系统建设,促进新技术的成熟应用。

  (三)应用现有的AI-OCR文字识别软件制作全文文本数据

  下面,我介绍一下应用现有的AI-OCR文字识别软件制作全文文本数据的有关情况。

  截至目前,已完成了247万册件数字化文献、2.23亿幅图像(每个对开页为一幅图像)的文本数据加工,文献主要为19世纪70年代至1968年期间入藏的图书,以及19世纪70年代至20世纪90年代期间发行的期刊。这247万册件文献也是截至2020年度为止,“日本国立国会图书馆数字馆藏”所提供的大部分数字资源。

  使用商用OCR文字识别软件开展文本识别存在一个难题。在1946年之前,日本一直惯用的是旧字体 (例如,“学”的旧字体为“學”),19世纪70年代至20世纪40年代期间出版的日本国内文献都使用了这种旧字体,而OCR文字识别软件对旧字体的识别率还比较低。此外,古书的字体大小、行间距都与现代有很大不同,污渍、噪点、透字等因素也会影响OCR识别字体的准确性。

  因此,我们决定应用机器学习技术对当前的AI-OCR文字识别软件进行优化升级,使之能够适应日本国立国会图书馆的馆藏文献数字化工作的需求和特点,大幅提升识别准确率。

  从实验结果看来,OCR的整体识别准确率达到96%以上,文字识别结果可以直接应用于全文检索。

  (四)AI-OCR文字识别程序“NDLOCR”的研发情况

  下面,我简要介绍下AI-OCR文字识别程序“NDLOCR”的研发过程,这同样也是在2020年度补充预算支持下开展的项目。

  NDLOCR的研发目的,是为了应用于2021年度之后加工完成的馆藏数字化文献的OCR文本识别工作。日本国立国会图书馆之所以要自主研发OCR文字识别程序,是因为现有的商用OCR文字识别软件大多为从量收费制,顾名思义也就是按照加工量来收取费用,加工的文献数量越多费用也就越高。不只是这个原因,我们还想对软件进行本地化开发和部署,同时还要积极吸收和利用他人的研究成果。

  在NDLOCR的研发过程中,我们同样也遇到了古书文字识别方面的困扰。此外,我们亟需解决的另一大难题是,如何依托先进的信息技术开发日本国立国会图书馆可以自由使用的开源软件。

  在委托外部专业公司开展软件开发的同时,我们应用下一代系统开发研究室自主研发的图像区域识别程序及其数据集(NDL-DocL)开展了测试。在OCR预处理阶段,利用图像区域识别技术对待识别图像进行预处理,对插图等所在的区域等进行定位识别,大幅度提升识别准确度,达到了与商用AI-OCR软件几乎相同的文字识别效果。2022年5月31日,我们通过GitHub上的“NDL实验室”帐户页面(https://github.com/ndl-lab)公开发布了NDLOCR开源项目,同时还开源了OCR训练数据集以及图像区域信息训练数据集,前者包含1.5万张图像,后者包含2.5万张图像。

  (五)“日本国立国会图书馆数字馆藏”实现升级改版,全面提供全文检索功能

  我们一直通过“日本国立国会图书馆数字馆藏”服务平台向读者提供馆藏数字资源服务,于2021年启动了系统升级改造工作。系统升级改造完成后,“日本国立国会图书馆数字馆藏”将从现有的本地部署(On-premises)转至公有云,能够有效满足今后不断增长的用户访问需求和服务拓展需求。新系统预计将于2022年12月正式上线。

  “日本国立国会图书馆数字馆藏”系统将会新增一项重要功能,也就是我刚刚在第二部分(三)中提到过的,应用商用AI-OCR文字识别软件实现对247万册件数字化文献的全文检索服务。

  除此之外,“日本国立国会图书馆数字馆藏”系统还将整合三项新功能:一是“下一代数字图书馆”测试系统中搭载的以图搜图功能;二是在第一部分(二)中提及过的“个人数字传递服务”的传送文献流媒体阅览功能;三是将于2023年1月上线的打印功能。

  (六)为视觉障碍者等提供全文文本数据服务

  长期以来,日本国立国会图书馆一直通过采集专题文献信息资源、提供文献检索和借阅服务、制作学术文献有声书等方式,为视障人群等提供文献信息服务。

  2019年,日本政府出台了《无障碍阅读法》,其中提出要普及无障碍格式的电子书,推动无障碍格式的盲文书和电子书实现量质齐升。为了进一步丰富无障碍格式电子书的馆藏数量,日本国立国会图书馆于2021年度正式启动了学术文献文本数据制作项目,根据委托人需求制作文本数据并通过“视觉障碍者等专用文献传递服务”将数字资源送到视障读者手中。我刚才在第二部分(三)中也提到过,日本国立国会图书馆利用现有的AI-OCR文字识别软件,制作完成了约247万条文本数据。我们计划于2023年3月开始,通过“视觉障碍者等专用文献传递服务”向视障读者提供无障碍格式的电子书,当然其中不包括可从市面上获取到的电子书。现有的无障碍格式的纸本书和电子书主要以小说和实用类图书为主,我们提供的这些OCR数据虽然未经进一步审核校验,但视障读者可通过该项服务获取到包含大量学术文献在内的多种海量文本数据。我们相信这个项目将具有划时代的意义。

  三、未来工作展望

  在第三部分,我向各位介绍一下日本国立国会图书馆的下一步工作展望。

  (一)提高NDLOCR的识别准确率

  我们之所以要对NDLOCR进行软件升级,是为了提高视觉障碍者专用文本数据的识别准确率,尤其是要确保在遇到排版复杂及彩色印刷书刊时,OCR软件能够按照正确的字句顺序来朗读文本。下一步,我们将继续推进NDLOCR的研发工作。

  当前,我们还面临一系列技术难题亟待解决。例如,如何在去除其中的页码和新闻标题的前提下,准确地抽取出文本内容?如何确保软件按照正确的字句顺序来朗读文本?如何提高留白字体、彩色文字等艺术字体的识别准确性?如何确保汉字读音的准确性?等等。

  为了解决以上问题,日本国立国会图书馆于2022年启动了“视觉障碍者等专用数据制作OCR研发”项目,在深入开展AI(机器学习)等最新先进技术调研的同时,进行适应NDLOCR的本地化开发。

  (二)NDL实验室

  下一代系统开发研究室搭建了一个名为“NDL实验室”的网站。除了前面介绍过的“下一代数字图书馆”之外,NDL实验室还积极应用全文文本数据开展试验性服务。

  在去年的中日线上业务交流会上,我们向各位介绍过NDC Predictor。这是一种基于任意字符串(文本),自动为图书进行日本十进分类法(NDC第9版)分类的应用程序。目前,NDC Predictor已通过“NDL实验室”开源发布。

  我们还通过NDL实验室将NDLOCR源代码和训练数据集连接到GitHub上。

  后面,我再就NDL Ngram Viewer做详细介绍。

  此外,我们联合外部科研人员共同开发的实验性服务项目也已成功上线。

  今后,我们还将继续通过NDL实验室,持续发布新的实验性服务项目,在系统功能相对成熟以后再正式投入使用。

  (三)NDL Ngram Viewer

  作为有效应用全文文本数据推动检索服务创新的一项重要举措,2022年5月,日本国立国会图书馆开源发布了NDL Ngram Viewer。NDL Ngram Viewer是一种可视化工具,可以搜索某个特定查询词在数字资源中的出现频率,并以出版年时间序列图的形式进行可视化展示。

  Google实验室推出的Books Ngram Viewer也具有相同的功能,但是不支持日文语言。目前,对于日本国立国会图书馆馆藏数字资源中已过著作权保护期的28万册件文献,NDL Ngram Viewer已实现了与GoogleBooks Ngram Viewer相同的功能。不仅如此,NDL Ngram Viewer还引入了比Google Books Ngram Viewer更强大的正则表达式搜索引擎,具有强有力的拼写纠错功能。日文中同时包含汉字、平假名和片假名,同一个地名可能会有多种表现形式。例如,用“関(ケ|ヶ|が)原”进行检索的话,可以同时显示“関ヶ原”“関ケ原”“関が原”三个检索词的词频。

  (四)下一步工作计划

  截至2021年度末,日本国立国会图书馆已完成了247万册件数字化文献的文本数据制作。下一步,我们计划利用NDLOCR文字识别软件,将目前那些正在进行数字化加工的文献也全部制作成为文本数据。NDLOCR进行优化升级之后,文本识别准确度将得到极大提升。将来,我们可以充分利用这些海量的文本数据,探索进一步提升图书馆服务体验的有效途径。虽然目前仍处于概念阶段,但我们对于下一步研发出图像自动抽取及检索功能、相似文章检索功能、文章摘要自动生成功能及基于此技术的检索功能、个性化图书推荐及相似参考咨询案例推荐功能充满期待,同时还希望借助这些新技术开发参考咨询智能问答系统。

  按照计划,这些新功能将会嵌入到“下一代数字图书馆”系统平台上,在开展技术应用试验的基础上不断实现优化升级,然后再搭载到“日本国立国会图书馆数字馆藏”系统平台上实现正式应用。

  结语

  十多年来,日本国立国会图书馆一直致力于推动数字化文献的全文文本数据制作加工工作,近年来取得了一系列丰硕成果。

  下一代系统开发研究室运用先进的信息技术,成功研制出“下一代数字图书馆”“日本国立国会图书馆数字馆藏”等测试系统并上线试运行,然后再逐步搭载到正式系统上投入应用。

  今后,我们希望充分利用先进的信息技术和全文文本数据,不断拓展图书馆服务新领域。

  我们期待中日双方进一步开展交流与合作,分享成功经验,共同推动两国图书馆事业实现更好发展!

  感谢您的聆听!