中日在线业务交流报告:应用AI(机器学习)技术实现图书馆服务创新——下一代系统开发研究室工作情况汇报

日本国立国会图书馆
电子情报部主任司书兼电子情报企划课下一代系统开发研究室室长
德原直子

  序言

  下一代系统开发研究室的主要工作成果是,应用AI(机器学习)技术开发研制出了“下一代数字图书馆”测试系统。下面,我将主要围绕“下一代数字图书馆”,简要介绍一下下一代系统开发研究室的主要职责及工作成果。

  一、下一代系统开发研究室介绍

  下一代系统开发研究室(以下简称“下一代室”)成立于2011年10月,其主要职责是推进先进信息技术在图书馆领域的应用,开展相关的调查研究和实证实验工作。2021年3月,下一代室对标《日本国立国会图书馆愿景2021-2025:日本国立国会图书馆的数字化转型》工作部署,制定出台了全新的工作计划。目前,我们正围绕工作计划中的四项主要目标,深入推进以下几项重点工作:

  (1)围绕“适应数字化转型需求,提升服务水平和业务水平”的目标,就如何拓展系统检索功能、提升数字资源利用效率,如何提高书目数据编制效率等问题开展调研和技术研发工作。

  (2)开放程序和数据集,以进一步“促进数字信息资源的便捷使用”。

  (3)开发全国性跨领域检索门户网站“Japan Search”(后文将涉及),“为公众访问和利用各类文化资源构建信息基础设施”。

  (4)开展“数字资源的长期保存”技术调研等。

  我们的研究课题主要为图像识别技术与图像处理技术,内容涵盖:OCR(光学字符识别)文本识别技术,可从馆藏数字资源(图像)中提取出文字;区域识别技术,可对数字资源(图像)中的文本、图片、插图等所在的区域进行定位识别;图像检索技术,可从数字资源中查找出相似的图表或插图;等等。除此之外,我们的研究课题还涉及自然语言处理和情报分析技术。

  二、AI(机器学习)技术应用研究成果

  我馆的AI(机器学习)技术应用研究成果全部发布在“NDL实验室”网站上(https://lab.ndl.go.jp/)。日本国立国会图书馆为开展图书馆创新服务实证性实验,专门搭建了“NDL实验室”平台。

  1.下一代数字图书馆

  “下一代数字图书馆”是NDL实验室“体验”的顶层实验服务,其中收录的数字资源总量达到33.6万件,全部是超过著作权保护期限而进入公共领域的文献。“下一代数字图书馆”中的所有的图表、插图都可检索,但可进行全文检索的文献只有3万件左右,这些文献根据日本十进分类法(NDC)划分为第6大类“产业领域”。我们开展实证性实验的最终目的是,将各项新功能搭载到“日本国立国会图书馆数字馆藏”系统平台上,在馆藏数字资源实际服务中实现应用(下次系统更新时,将会搭载以下的①-⑤项功能)。

  下面,我来介绍一下“下一代数字图书馆”系统中搭载的几项功能。首先是基于OCR(光学字符识别) 技术的全文检索功能(对应PPT中的功能①),全文检索后可高亮显示命中关键字,并列出关键词前后的100个文字。其次是图像自动抽取功能(对应PPT中的功能②),从数据库中自动抽取出图像(图表、插图、照片等),并以缩略图形式展示在文献检索结果界面 。第三是图像检索功能(对应PPT中的功能③),可在数据库中查找相似的图像(图表、插图、照片等)。通过开发应用图像检索功能,我们希望可以进一步拓展信息检索渠道,改变之前传统的基于关键字的图像搜索模式。例如,可以实现以图搜图,从不同的文献中搜索出相同的照片或插图。

  第四是图像裁剪功能(对应PPT中的功能④),可自动裁剪掉文献扫描影像四周的多余部分,只保留原稿区域部分。第五是页面分割功能(对应PPT中的功能⑤),可自动适应智能手机等竖版阅读器屏幕,将扫描书籍创建的一帧对页展开图像拆分成两页。第六是背景色自动切换功能,当书籍原件纸张老化变色,扫描后的文字难以辨识时,可通过深度学习方法对原图进行矫正,将除文字、图片、表格以外的背景底色改成白色。

  以上各项功能中应用到的技术有,基于图像识别的目标区域分割技术(对应PPT中的技术介绍1)、以图搜图技术(对应PPT中的技术介绍2 )、对开页区域识别与页面分割技术(对应PPT中的技术介绍3 )等。其中,对开页区域识别与页面分割技术已在我馆的文献数字化工作中实现了应用落地,用来检验图像的扫描质量。此外,该项技术还应用于OCR图像预处理流程中,通过 OCR 识别文字后进行朗读,让视障者也能读取屏幕文字信息。

  2.NDC Predictor

  NDC Predictor是一种基于任意字符串(文本),自动为图书进行日本十进分类法(NDC第9 版)分类的应用程序,提供API接口。NDC Predictor主要应用于编制书目数据,通过自动实现图书分类,可有效提升书目数据的编制效率。我们使用馆藏书目数据的题名、出版者、著者信息,对快速文本分类器fastText 进行了语料训练。截至目前,日本十进分类法一级类目准确率达到86%,二级类目准确率达到82%,三级类目准确率达到75%。

  NDC Predictor使用极为简单,用户只需提供待分类的文本数据,即可实现自动分类。可以输入任何文本数据,并不局限于图书书目信息。

  3.开放程序和数据集

  以上介绍的技术成果和程序全部采用最宽松的知识共享授权许可CC BY 进行开放,连同数据集一起发布在NDL实验室的GitHub 账号(ndl-lab)上。超过著作权保护期限而进入公共领域的数字化文献,其数据则采用公共领域标识(Public Domain Mark,PDM) 实现开放共享。通过开放程序和数据集,我们希望能够有机会与馆外的优秀工程师进行技术交流与研讨。

  目前,我们已在GitHub上开源了“下一代数字图书馆”的各种程序,并开放了与程序开发相关的数据集。就在今年9月,日本国立国会图书馆刚刚发布了一批数据,其中含有基于馆藏书目(全国书目)数据编制的振假名(注音假名)数据集。标注假名读音可以有效提高汉字读音的准确度,有助于有视觉障碍的人士等读取文本信息。

  截至目前,这些开源程序和数据集的应用事例尚且不多。略举一例,某所国外的研究生院在研究日本明治时代产业发展史时,应用到了产业类文献的全文文本数据。

  4.在“Japan Search”中的应用

  2020年8月,日本全国性跨领域检索门户网站“Japan Search”正式上线,汇聚了图书馆、博物馆、美术馆、档案馆、大学等机构建设的各类数字资源,提供各专业领域内容资源元数据的一站式检索、浏览和使用。Japan Search是一个全国性项目,日本国立国会图书馆承担系统平台的建设工作,下一代室负责系统研发和应用。

  Japan Search搭载了“下一代数字图书馆”中的以图搜图功能,可搜索相似图像,并以缩略图的形式显示检索结果。与此同时,系统还内置了罗马拼音自动标注功能,日文元数据也可以使用罗马拼音进行搜索。

  三、下一步工作计划

  下一步,我们将继续加强图像处理技术和OCR文本化技术方面的调查研究工作。

  我馆在本年度开展的一项重要工作是,将“日本国立国会图书馆数字馆藏”系统中存储的247万件数字化文献(共2.23亿幅图像)转换成文本格式。这247万件文献当中不包含古籍,资源总量约150TB。与此同时,我们还在积极开展OCR开源项目的研发工作。

  今后,我们将会继续开放OCR预处理程序及OCR文本处理程序,进一步提高OCR文字识别准确率。在本年度末,247万件数字化文献完成文本化处理之后,日本国立国会图书馆将会获得一大批文本数据。对于超过著作权保护期限而进入公共领域的书籍,我们将会全部开源数据,希望这些大数据能够应用于人文社会科学研究等各科研领域,推动形成新的研究课题。

  为了向图书馆用户提供更加便捷的服务体验,我们现在正在研究如何进一步挖掘和利用文本数据,计划研发出一种基于图像语义自动标注的图像文本检索功能以及一种不基于关键字的相似文章检索功能。另外,还计划研制一种与亚马逊(Amazon)等平台完全不同的、本馆独有的个性化图书推荐技术,以及一种基于参考咨询案例自动分类的相似案例推测技术。新技术研制出之后,将嵌入到“下一代数字图书馆”系统平台上或作为一种创新性的实验服务进行提供。与此同时,我们还将继续努力提升用户服务水平,积极推动实现数字化转型。

注释:

[1] OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

[2] 图像显示使用了国际图像互操作框架(International Image Interoperability Framework ,IIIF)。

[3] 应用了ImageNet模型训练数据集和Vald布式矢量搜索引擎。ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库,有1400多万幅图片,涵盖2万多个类别,其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。Vald是日本雅虎公司开发的高度可扩展的布式矢量搜索引擎,基于Cloud-Native架构设计和实现。

[4] 使用了SSD(Single Shot multibox Detector)目标检测模型。SSD是一种使用单个深层神经网络检测图像中对象的方法,可检测预先学习的对象物体在图像中的位置。

[5] fastText是脸书人工智能研究院(Facebook AI Research)在2016年推出的一款文本分类与向量化工具。

[6] 知识共享许可协议(Creative Commons license),又叫CC协议,是一种允许他人分发作品的公共版权许可,包括六种授权条款。其中署名(CC-BY)许可协议规定,只要他人标记上原著的姓名就可以用于任何使用,可最大限度的传播和使用许可作品。

[7] GitHub是一个面向开源及私有软件项目的托管平台,只支持Git作为唯一的版本库格式进行托管。

[8] PDM不具有法律效力,仅仅作为用于标注在全世界皆不受著作权保护的老作品、或者在著作权到期前已被权利人明确在全球范围内置于公共领域的作品。

 

 

 

(翻译:研究院 王薇)