申晓娟等3人赴挪威参加2025年国际互联网保存联盟年会有关情况的报告

2025年4月7日至11日,国家图书馆研究院院长申晓娟、信息技术部副主任甘蒂、数字资源部研究馆员季士妍一行3人于赴挪威奥斯陆参加了2025年国际互联网保存联盟年会。现将参会期间的相关情况、启示与思考等事项汇报如下:

一、出访基本情况

国际互联网保存联盟(International Internet Preservation Consortium,以下简称IIPC)成立于2003年,致力于推动网络存档资源的广泛获取和利用,进而促进学术研究和文化遗产保护。IIPC只准许图书馆、档案馆、博物馆、其他遗产或研究机构以及其他致力于收集、保存和访问互联网内容的组织申请成为联盟成员。截止2025年4月,IIPC会员共有来自全球35个国家56个机构,我馆于2007年7月加入成为会员并开展相关工作。

IIPC每年均会举办年会,为各成员机构在互联网信息资源采集与保存方面的进展提供交流展示与学习互鉴的机会。2025年IIPC年会于2025年4月8日至10日在挪威首都奥斯陆市举行,由挪威国家图书馆主办。会议以“面向最佳实践”为主题开展研讨。年会为期三天,4月8日召开IIPC会员年会,4月9日至10日召开IIPC网络保存会议。

本次会议参会代表共计195人,来自32个国家,102个机构组织。66.67%的参会代表是IIPC 会员,33.33%的参会代表是非IIPC会员。130位参会会员代表中,102位代表来自25个国家的国家图书馆,占参会会员的78.46%,其余28位参会会员代表来自于14个机构。65位参会非会员代表,分别来自大学图书馆、地区图书馆、国家档案馆以及服务提供商等。挪威作为本次年会的主办地,共计有49位代表参加年会,是参会人数最多的国家。

二、会议相关情况

(一)IIPC会员年会

2025年4月8日举行的IIPC会员年会,仅限IIPC会员参加,约130人参会。其中亚洲地区的代表包括中国国家图书馆3人、日本国立国会图书馆1人、新加坡国家图书馆1人。当天上午为全体会议,下午为工作组会议。

1.全体会议

全体会议包括开幕致辞、IIPC主席致辞、IIPC2026-2030战略规划展望几个环节。IIPC高级项目官员奥尔加•霍洛维尼亚女士致开幕辞。她向全体会员通报了IIPC联盟在过去一年中通过工作组、网络研讨会、电话会议等形式举办的各项活动,并宣布了2026年国际互联网保存联盟年会将在比利时国家图书馆召开。随后,来自荷兰国家图书馆的IIPC主席范德霍文先生致辞并介绍了“2026-2030联盟协议与战略计划”策划及实施的重要时间节点,新联盟协议、战略计划和战略行动计划将于2026年1月生效。

来自丹麦皇家图书馆的IIPC财务主管比约恩•安德森先生介绍了联盟财务状况,在对2023-2025年各项财务支出作横向比较的基础上,介绍了2025年面向所有会员机构进行的财务支出意愿投票结果。共计有38个机构参与了投票,投票结果显示大家希望为“工具开发”提供最多份额的资金支持,其次为“会员大会(GA)/网络保存会议(WAC)”提供资金支持。IIPC财务主管表示,IIPC战略委员会将如往年一样,继续作为批准年度预算的正式机构,并将开始研究筹集更多资金,包括争取外部资助等。此外,会议宣布将恢复自由资助计划并在 2026年会员大会上公布和启动流程,从2027年开始拨款资助项目。

2.工作组会议

工作组会议包括工具可持续性框架工作组、内容开发工作组、研究工作组、培训工作组、抓取国家域名(分享在使用Heritrix软件进行国家域名抓取方面的专业知识和经验)以及培训工作组案例研究“写作马拉松”研讨会。

每个工作组的活动安排,以主讲人与参与人随时讨论的形式开展。主讲人讲解本工作的进展,参与人会提出自己在工作中遇到的问题,大家随即展开对问题的讨论。各个工作组的内容安排,均以日常工作中遇到的困难和解决办法为主,讨论的内容突出专业性和技术性,工作组会议的目标是为参与者提供切实可以参考的案例、研究指引、应用指南以及可行的解决方案等。

(二)IIPC网络保存会议

4月9日至10日为面向会议注册人员开放的IIPC网络保存会议。每日的会议安排时间非常紧凑,内容也非常丰富。开幕致辞、开幕主题报告、海报展示、闭幕主题报告、闭幕致辞五个环节是全体与会者共同参与,其余时间段均安排了分主题、多个会场同时开展主题报告、座谈以及工作组研讨。

1.开幕致辞

IIPC高级项目官员奥尔加•霍洛维尼亚女士和挪威国家图书馆的托内森先生共同主持开幕式。他们分别介绍了本次会议的议程和内容,特别提到IIPC组织的行为准则,即IIPC是包容与尊重的社群、IIPC活动中绝不容忍任何形式的骚扰,不容忍针对性别、性别认同或表达、民族、国籍、语言、社会经济地位、性取向、残障、外貌、体型、年龄、种族、宗教等的攻击性言论、视觉或身体上的骚扰。

2.特邀报告

会议邀请了挪威国家图书馆大语言模型负责人哈维尔•德拉罗萨先生做题为“图书馆、版权与语言模型”的开幕主题报告。由挪威国家图书馆、奥斯陆大学和挪威科技大学共同合作开展的密米尔项目(Mímir Project),聚焦人工智能发展中的关键议题:受版权保护材料在大型语言模型训练中的作用。哈维尔•德拉罗萨先生介绍,在密米尔项目建设中深入探究纳入由出版商掌控的受版权保护的语料库(尤其是书籍和报纸)会如何影响挪威的大型语言模型的性能。通过对各种数据组合进行实证测试,密米尔项目揭示了受版权保护的内容是如何在情感分析、阅读理解和翻译等任务中提升模型能力。研究发现版权内容能够显著提升大型语言模型在特定任务中的表现,也揭示了AI发展与知识产权保护之间存在法律和伦理矛盾。

“分析与数据”组织项目经理和分析师艾达•豪根-波利亚克女士与程序开发和分析师哈瓦德•伦德伯格先生一同做题为“量化复杂性:利用网络数据解码线上公共辩论”闭幕主题报告。成立于2014年的非营利性合作组织“分析与数据”,专门从事基于数据驱动的洞察分析。两位发言人分享了“分析与数据”组织在处理复杂网络数据方面的经验。他们介绍了从社交媒体平台进行高级数据收集,再结合人工智能的应用以及定制算法,帮助他们理解复杂的社会动态。利用网络数据量化仇恨情绪和社会两极分化程度,揭示有关少数群体的错误观念和刻板言论,绘制出虚假信息的传播路径,并介绍了将数字对话转化为可采取行动的思路。

3.海报展示

IIPC网络保存会议设置了集中展示18个主题的“海报展示”分享区域,让每位发言人将自己的海报张贴并与大家进行分享。海报展示的18个主题分别为英国国家档案馆的Twitter实验性捕获、法国国家图书馆数据实验室、艺术类学生网络档案设计、建立网络档案正式注册系统的下一步、利用网络档案构建学科发展史、电子文献联盟实践分享、Arquivo.pt软件年度奖项概览、Arquivo.pt 软件API/批量访问功能及应用实践、高交互性网络体验案例分析、网络存档黑客马拉松(HAWathon)参与者体验、佛兰德地区(及其他地区)文化遗产机构社交媒体存档最佳实践支持、芬兰国家图书馆2025-2028年新馆藏计划、重定向链路解析、动态内容截屏采集技术及AI数据分析应用、用于快速网络存档(WARC)注释的异步模块化的流水线、服务器友好的海量WARC文件下载方案、生成式AI时代的robots.txt协议与爬虫礼仪、网络存档爬虫升级HTTP/2协议实践。此外,大会还安排了全体与会者共同参与的“海报展示”快闪发言环节,每位发言人有1分钟的发言时间,让与会者快速、直接、准确地了解海报内容。

4.分会场主题报告及座谈

为期2天的IIPC网络保存会议的5主题报告内容非常丰富,所有主题报告都是以“主题”为组织方式,以快速发言、主题讨论、分会场、小组会议的形式组织,主讲人集中发言,听众自由提问。同一时间段内开展2-3个主题会场,共包括以下几个会场:“国家图书馆主导的网络文化遗产保存项目(墨西哥、葡萄牙、法国、捷克)”快速发言、“包括语义建模、格式转换、新型媒体保存等数字档案领域的前沿技术挑战的解决方案”快速发言、“面向公众与研究者的网络档案价值激活”主题讨论、“建设中的工具实践:国家图书馆视角下的经验启示”分会场、“采集工具发展与展望”分会场、“倡导与用户参与:激活网络存档资源”分会场、“作为数据的网络存档馆藏”小组会议、“历史门户网站存档的困境探索”小组会议。

(有所删减)