摘要
数字文献学是在数字环境下,利用数字技术以及以数字技术为基础的现代技术对中国古代文献进行整理和研究的一门新兴学科。数字文献学是传统文献学的继承、发展和创新。数字技术给传统的文献研究带来了新的思路、新的角度、新的工具和新的方法。数字技术不仅使传统文献学的文本校勘、辑佚等更加方便,也大大拓展了传统文献学研究的视域,带来研究思路、方法上的发展与创新。数字技术可以对文献进行从字符级到知识级的处理,因而将对文献的研究深入、细化到字符、数据、信息、知识的层面,在更广、更深的层次来“辨章学术,考镜源流”。数字文献学不是传统文献学简单的数字化翻版,在理念、思路和理论、方法上都有其自身的特点。数字文献学的发展,并不是要取代传统文献学。一方面,传统文献学的研究可以得到数字技术的助力,另一方面,传统文献学的研究方法也可以给数字文献学的发展提供参考、借鉴。数字文献学不是用数字技术取代人在文献学研究中的主体地位。数字技术可以为研究者提供新的思路、新的方法,数字技术是文献学研究的助手和工具,而非消灭这门学科的敌手。数字时代人们对文献利用的要求以及现代技术的进步将决定数字文献学研究的重点与未来发展。
目录
1 文献学面临的变化与挑战
2 数字文献学的定义、范畴与方法
2.1 关于数字文献学的定义
2.2 数字文献学的重点和特点
3 数字文献学与传统文献学
3.1 数字文献学对传统文献学的继承、发展与创新
3.2 数字文献学的学科体系变化
4 结语

中国自古号称“文献之邦”,文献不仅是治国之典谟,也是“匡济风俗,矫正彝伦”之准绳,更是历史与文化传承之依凭,因此对于文献的收集、整理、研究、典藏是历朝历代“文治”的重要内容,对于文献的收集、整理、研究、典藏也形成了一套制度性的安排。以西汉末年刘向、刘歆等对国家藏书的系统整理以及《别录》《七略》的编纂为标志,以中国古代文献为研究对象的文献学成为一门学问,并在中国传统学术体系中具有基础性、支撑性的地位,历来号称“显学”。
文献学是一门综合性学科,因研究重点、方向不同通常又被分为目录学、校勘学、版本学、辑佚学、辨伪学以及文献翻译(如佛经翻译)、传注、编纂和文献史等分支学科。其中,目录学、校勘学、版本学、辑佚学是传统文献学的基础与核心。
20世纪后半叶开始,随着数字技术的兴起与发展,传统的学术研究体系、研究范式与方法都发生了革命性的变化。在这场变革之中,文献学的研究对象、研究方法甚至学科结构与体系等都发生了巨大变化,一个在传统文献学基础上发展起来的新兴学科——“数字文献学”应运而生。
“数字文献学”是相对于在中国已经有两千多年发展史的传统文献学的一个学科概念,虽然十多年前就已经被提出,但关于它的定义、内涵、学科特点以及与传统文献学的关系等,学术界迄今尚未有充分的讨论。笔者向喜流略之学,虽未入堂奥,但兴趣所在,因不揣谫陋,姑作芹献之谈,以就教于方家。
1 文献学面临的变化与挑战
20世纪40年代,人类第一台电子计算机诞生,由此揭开了数字时代的序幕。90年代以后,随着计算机、网络、大数据、人工智能等以数字技术为核心的新技术突飞猛进,人类社会进入了一个与以往完全不同的数字时代。数字时代的来临,不仅改变了人们的生活方式,也给学术研究带来了巨大变化,学术研究的工具、方法甚至思维方式都发生了革命性的变革。在人文社会科学领域,最先受到影响的,就是作为“治书之学”的文献学,数字技术给古老的文献学学科带来了一系列的变化。
一是研究环境与条件的变化。从20世纪60年代起,以图书馆为中心,人们开始利用计算机技术、现代信息技术、网络技术对文献(包括中国古籍)进行整理。1965—1969年,美国国会图书馆先后推出了MARC-Ⅰ、MARC-Ⅱ,开启了图书馆计算机编目的进程。1991年,由中国国家图书馆主导研制的CNMARC(中国机读目录)推出。从此以后,图书馆文献的计算机管理进入了发展快车道。迄今为止,全国几乎所有的大中型图书馆都实现了古籍书目数据化。与传统的卡片式和书本式目录相比,古籍书目数据化以后不仅可以实现远程查询,在具体的查询功能上,可以实现更灵活、更方便、检索点更多的信息检索,通过不同的检索式和检索点实现多种多样的文献聚类,如书名、分类、作者、主题词(或关键词)、年代、版刻(或抄写)年代、版刻地点、出版者、刻工、藏书印、批校题跋等。
利用计算机进行文献编目,给中国传统的目录编制和目录学带来了巨大的变化:计算机编目强调文献书目著录款目和格式标准化、著录信息的客观性,这从根本上改变了传统目录学中文献著录的随意性;新的文献著录规则、代码化的文献分类号和虚拟的编目数据在某种意义上消解了“辨章学术,考镜源流”的中国古典目录传统,文献分类号几乎变成了单纯的索书号和图书馆文献排架号;计算机书目全文检索让传统目录“即类求书”的实用功能相形见绌,文献检索效率较之后者有天壤之别;计算机编目以及现代图书分类法、主题词表等工具的协调运用,通过现代分类法的类号、主题词及其建构的知识体系,可以更准确地进行文献的“聚类”和“区分”。这一切变化,开启了现代目录学变革的大门,而数字技术以及建立在数字技术之上的现代信息技术正是这把钥匙。
二是文献学研究对象的变化,即文献本身的变化。传统古籍的载体是古籍实物,无论是古代的线装书籍,还是20世纪以后出现的各种影印本、标点整理本,在使用者的眼里,文献的内容是以图像的形式呈现的。对于图像中所蕴含的知识,只能靠人眼去识读,然后经人脑进行处理,这必然会受制于人眼和人脑对海量信息处理的局限,特别是使用者学识的局限。当文献被数字化以后,计算机可以存储、处理比人脑多得多的信息。更重要的是,当古籍经数字化扫描和文本识别以后,可以利用计算机对古籍的内容进行字符级处理,以发现其中的信息与知识。传统的文献学尤其是目录学,基本上是以文献为基本研究对象,而对于数字文献学来说,其研究对象深入到了文献的内容,不仅能够通过全文检索快速发现所需要的信息和知识,同时,通过大数据、人工智能等新技术对古籍文本进行语义分析、处理,从而超越文本字面的表述,挖掘出隐含在古籍文本中的隐性知识。
三是研究范式与方法的变化。1786年,东方学家威廉·琼斯(William Jones,1746—1794)提出了梵语与拉丁语、希腊语同源的观点,这标志着历史比较语言学(Historical Comparative Linguistics)的诞生。历史比较语言学为现代语言学奠定了基础,而现代语言学与计算机技术的结合,正是今天文献学研究方法发生革命性变化的基础。
20世纪20年代,著名的瑞典汉学家高本汉用现代语言学研究方法对中国古代重要的、有争议的文献进行研究,发表了《论左传的真伪及其性质》(On the Authenticity and Nature of the Tso Chuan,1926)和《中国古书的真伪》(The Authenticity of Ancient Chinese Texts)、《书经中的代名词厥字》(The Pronun KÜE in the Shu King),后来由中国学者陆侃如译为《左传真伪考及其他》。高本汉根据先秦文献《左传》《国语》中的虚词“于”“於”的用法及使用频率,分析了二者的关系和时代,并进行相关的文献学特别是文献辨伪学研究。到50年代,高本汉用类似的方法,对《红楼梦》进行分析比较,以论证前八十回和后四十回的作者是否为同一人的问题。不过,高本汉做《左传》研究时,电子计算机还没有发明;做《红楼梦》研究时,电子计算机虽已发明,但还不能处理中文,高本汉完全是靠人工完成的。由于人工处理这类问题,耗时耗力,并且不能进行更大范围的比较研究,因此有很大的局限性。从1941年开始,意大利神学家、耶稣会修士罗伯托·布萨(Roberto Busa)对托马斯·阿奎那(Thomas Aquinas,约1225—1274,神学家、欧洲中世纪经院哲学的集大成者)的著作进行研究,其中一个问题是研究阿奎那著作中“存在”(praesentia或praesens)一词的含义,但经初步研究发现,仅根据著作中的“praesentia”或“praesens”尚不足以理解“存在”这一哲学概念的深刻内涵,需要对阿奎那著作中常用介词“in”在不同语境中的意义和上下文关系结合起来研究,而这项研究需要处理1 100万个中世纪的拉丁语词汇,靠人工几乎无法完成。1949年,他在IBM的支持下,利用刚发明不久的计算机,将阿奎那的全部著作转换为二进制的打孔带,以此进行数据及语义分析。到1974年,第一册《托马斯著作索引》正式出版。布萨的研究被学术界公认为是“人文计算”或者“数字人文”的起点。布萨的研究既属于哲学史的研究,但他所采用的研究方法却是文献学的方法,分析研究的对象也是文献,因此,也不妨看作是“数字文献学”的起点。此后,西方学者利用计算机,采用类似方法对西方古代文献如《死海古卷》进行了研究。
在中文世界,从20世纪80年代起,学者开始利用计算机进行中国古代文献研究。1980年,美国华裔博士研究生陈炳藻在周策纵先生的指导下,利用计算机对《红楼梦》20多万个词汇出现的频率进行统计分析,最后得出结论:根据前四十回、中四十回与后四十回五种词类使用频率的分析比较,并用《红楼梦》差不多同时期的《儿女英雄传》四十回出现的频率做相关系数和相联系数的校验,得出了《红楼梦》一百二十回大致上是同一作者的结论。此后,红学家赵冈、计算机和统计学者李贤平等也利用计算机进行了类似的研究。不管他们各自的观点、结论如何,这标志着中国古代文献研究与计算机结合的开始。1985年,在江苏镇江科委工作的“红学”研究者彭昆仑与南京工学院(今东南大学)合作,建立了“《红楼梦》数据库系统”,该系统提供七大类检索,包括人物、建筑、园林景致、故事情节、原著中反映的哲学、政治、法律、文学等十个专题(其中文学专题下还有诗词、对联等八个检索子项)和全文检索,可以进行多种组配检索,具有直观灵活的图示功能,系统开发者指出:“计算机科学的发展为自然科学的研究提供了一件锐利的武器,也为自然科学与社会科学的交叉研究开辟了一条广阔的道路。”
四是人们对文献学研究的新要求。当数字化、信息化浪潮袭来,人们对于文献,包括古籍的需求发生了巨大变化:过去人们对于文献最大最强烈的需求是查找文献,获得文献;进入数字时代以后,人们不仅要求无论何时何地(anytime,anywhere,anyway)都能方便地获取、使用文献,也要求能够更方便地发现文献中所蕴含的信息与知识,甚至通过对文献内容的处理,更方便地发现文献中的隐性知识。
数字技术的发展,大大改变了人们的观念,数字化理念、数字研究工具、数字传播环境改变了学术生态和社会环境,文献从生成、管理、组织、利用、保存全流程发生了根本性的变化,也改变了传统文献学研究的基础,为文献学的理论与方法创新提供了条件和动力。在数字化面前,古老的文献学面临着一场从研究内容、研究范围到研究范式、研究方法的革命,数字文献学的时代已经来临。
1984年,曾经在钱锺书先生的指导下主持过“中国古典数字工程”的栾贵明与李秦发表了《微电脑与古文献研究》一文,文章写道:“随着微型机数量的增加、功能发展以及分布的扩大,其信息的贮存量会愈来愈多,并在一定范围,从一个地区到全国以及世界各地组成网络,形成一个巨大的资料库,所有信息资源便可共享。实现了这个目标,我国几千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。” 40年过去了,当年栾贵明、李秦对于计算机技术与文献学研究结合的憧憬,随着时间的推移正在变成现实,基于数字技术的文献学研究的条件已基本具备。
2 数字文献学的定义、范畴与方法
20世纪90年代以后,数字技术、网络技术飞速发展,对人文学科研究的影响越来越大,在古籍数字化领域尤为突出。由于古籍不涉及版权问题,因此成为文献数字化的主场,《四库全书》《四部丛刊》《廿四史》《古今图书集成》等大型丛书、类书和许多古代重要典籍陆续被数字化,全文检索等功能为研究提供了很好的帮助,人们开始认识到,“古籍数字化为古典文献学研究提供了全新的研究手段和思维模式,同时也必将诞生一门新的学科:古籍电子文献学。” “电子文献学(Digital Bibliography)应该就是以传统文献学为基础,对电子文献的生成、加工、整理、存取、制作、管理、传播和利用等各个流程和环节进行研究的一门学科。”不少高校也开设了古籍数字化、古籍数据库利用等相关课程。也有学者对这一新兴学科的名称、范畴、研究内容进行了讨论;还有学者从文献数字化以后对学术研究影响的角度去思考问题,指出古籍数字化以后,将对历史学、古典文学等以古籍为材料的学科研究产生重大影响,建议“在学科设置中增加一门交叉学科——数字文献学:专门探讨传统文献数字化及其应用中所涉及的问题”,并提出:“古籍数字化究竟对学术研究有何推动作用?这种作用是仅仅停留在工具层面还是能够渗透历史学和古典文学研究内部?它是在较浅层面上促使学科发生某种表层性的变化?还是在较深层面上对这类历史悠久的传统学科予以根本性的改造?”还特别强调了对数字文献利用的相关工具与技术的研发,如图像检索技术、自动比对技术、数据挖掘与书目分析技术等。的确,数字技术之于传统的文献学研究,所带来的变化不仅仅是方便性,以及某些功能上的增加,更重要的是对传统文献学理论与方法的创新。
数字文献学如何定义?数字文献学的研究对象、内容与重点是什么?数字文献学与传统文献学的关系如何?数字文献学将带来哪些理论与方法的创新?这是我们关注的重点。
2.1 关于数字文献学的定义
数字文献学是在数字环境下,利用数字技术以及以数字技术为基础的现代技术对中国古代文献进行整理和研究的一门学科。
数字文献学(Digital Philology)一词,包括两个基本元素:数字、文献学,文献学是主语,数字是定语,用以限制和修饰主语“文献学”。
文献学,是“以文献和文献发展规律为研究对象,以文献整理和利用为核心研究内容的一门学科”,研究内容包括“文献的形制、体式、生产方式、传播途径、整理方法”等。文献本是泛指记录信息与知识的一切载体,时间和空间涵盖古今中外。以文献为研究对象的学问很早就产生了,旧称“治书之学”。1928年,郑鹤声、郑鹤春的著作《中国文献学概要》出版,“文献学”作为一个学科名称被正式提出,并为后来学者广泛接受。
数字,或数字化,不仅是指将实体文献转换成数字化的文献,还指在数字环境下,以数字文献为研究对象,基于数字化的理念,利用数字技术以及相关的现代技术进行的研究,以促进文献的整理和利用。
数字文献学,本来应当是以古今中外的数字文献为研究对象,不仅包括原本是实体文献的古籍和近现代出版物经数字转换后形成的数字化文献,也包括原生的数字文献,如各种网络文献和再生的数字文献。在这个层面来说,现代中外文献及原生的网络数字文献等,都应纳入研究范畴。但是,中国古代文献与中外近现代文献在内容与形式上都有很大差异。中国古代文献是古代社会思想、文化的结晶,有着鲜明的时代特色,语言文字、思想文化、名物训诂等都与现代文献有很大差异,对于中国古代文献的研究与处理,需要熟悉中国古代的历史文化、古人的思想、思维与表达方式,熟悉古代的语言文字。事实上,中国传统的文献学也是以古代文献为研究对象的,从这个意义上说,数字文献学以中国古代文献为主要研究对象,也是传统文献学的继承和延续。与传统文献学不同的是,数字文献学是将文献研究置于数字环境之下,从对象到工具,从思维方式到具体方法,都与数字技术联系在一起,即数字化的环境、数字化的研究对象、数字化的思维、数字化的研究手段与方法、数字化的工具。
2.2 数字文献学的重点和特点
数字文献学与传统文献学都属于以文献为研究对象的文献学,但它们又有各自的研究重点和特点。
传统文献学的重点在于对文献的研究,包括根据文献内容进行分类和编目,对文献内容进行校勘,对缺佚的文献做辑补,对文献真伪进行辨别,此外也关注文献编纂、文献史等。这些研究都集中在对文献本身的研究,虽然各分支学科的研究方向不同、角度不同,但本质上都是为了揭示文献的性质、内容以及与其他文献之间的相互关系,恢复文献的本来面目,研究文献本身的发展及其规律。
数字文献学的重点也是对文献的研究,是利用数字技术对文献内容做更深入的分析、处理,从传统的以每种文献为基本单位的研究深入到每种文献的内部,以字、词、数据(data)、信息(information)、知识(knowledge)为基本的研究单位,分析研究文献内部的结构、知识的组织与表达,在对文献内容做深入分析的基础上,帮助人们发现文献所蕴含的数据、信息和知识。
简言之,传统文献学的重点是对文献本身进行研究,数字文献学的重点既有对文献本身的研究,但更加重视对文献利用的研究。这就决定了数字文献学涵盖以下重点研究内容。
(1)文献数字化与数字化文献的研究。中国古代文献的数字化已经有二十多年的历史了,早期所遇到的问题,如扫描技术、数字资源存储与管理以及从图像转换为文本时所遇到的计算机汉字字符数量不足的问题已基本得到解决,但仍有问题至今未能得到有效解决,如现有的OCR识别技术针对中国古代文献尚未能进入实用阶段,汉字的复杂性、古书的版式、古书的残损等都对OCR识别有严重影响。面对这些问题,除了提高计算机识别技术以外,可能需要有新的思路、新的方法,如建设古典知识库,利用人工智能技术等方法,从语义分析的角度,根据特定的语境、上下文关系去分析、判断、选择,从而提高识别率。
相对传统的实体文献,数字化文献有其自身的特点,也正是这些特点,成为数字文献学研究的前提与基础。数字化文献最大、最明显的特点就是它在使用、传播、存储方面的方便性和文本化数字文献的可编辑性。前数字时代,人们在进行学术研究时,最大的困难在于发现、获取文献,因此人们常用“上穷碧落下黄泉”来形容寻找、获取文献的困难。当文献数字化以后,除去知识产权方面的限制以外,理论上可以随时随地发现、获取文献。而作为文献学主要研究对象的古代文献,知识产权方面的限制比其他类型的文献少很多,因此,古代文献的发现与获取,较之过去,不啻天壤。迄今为止,中国国家图书馆网站上可以自由获取的古籍已达十余万种,近现代文献也已达十余万种,全世界其他文献收藏机构也有大量的数字化古籍发布,供人们自由使用。数字化文献较之传统实体文献,有它自身的一些特点,特别是文本化的数字文献,由于其具有可编辑性,用户可以方便地进行全文检索、内容统计和分析,并开展其他一些传统文献学不能或者很难开展的研究。不过,数字化文献也有一些问题需要进一步研究,特别是文本化的数字文献,它的可编辑性,既是它的优势,但它的可修改性也给准确性带来一些新问题。在数字化文献的组织、揭示等方面,则有更多的问题需要研究。
(2)基于数字技术的知识组织与知识发现。传统文献学特别是目录学的基本功能是文献的组织与文献发现,对于数字文献学来说,它的研究可以深入到文献的字、词、数据、信息、知识单元,它的基本功能,甚至是数字文献学的核心内容,是知识的组织与知识的发现。下面我们将专门讨论。
适应数字时代文献研究和利用的基础条件及应用平台、工具研发是数字文献学未来发展的基础和促进文献有效利用的重要手段,这些工作,包括中国古典知识库、古籍语料库建设以及古籍专业语言模型的研究,也包括中国古代文献和中华优秀传统文化的普及推广利用平台建设,如古籍文本自动转换(在线OCR系统)、自动标点、自动校勘、自动注释、辅助参考、内容分析与统计工具等。
(3)数字时代文献学理论与方法的研究。数字文献学是数字时代的文献学,是一门新兴学科,它的学科体系、架构可能不会像传统文献学那样有若干研究领域比较明确的分支学科,如目录学、校勘学、辑佚学等(事实上,这些分支学科本身也是在古代漫长的岁月中逐步形成的)。至少在数字文献学学科中,作为传统文献学最重要分支学科之一的目录学在很大程度上已经失去了它原来的意义,传统目录学的一些功能、研究方法可能会被继承、创新,但目录学中最重要的部分,即对文献的分类,必定会让位于对知识的分类。而在数字环境下,知识究竟如何分类?是局限于古籍之中、局限于中国的知识体系之中,还是将其置于包括古籍和现代文献等在内的一个更大范围的知识体系之中?还需要深入研究。传统文献学的一些其他分支学科,如校勘学、辑佚学等,在数字文献学学科体系中,也必定不会是简单的数字化翻版。这一切,都需要在未来的实践与学科建设中不断完善。
3 数字文献学与传统文献学
3.1 数字文献学对传统文献学的继承、发展与创新
数字文献学与传统文献学,都是关于文献研究、整理的学问,都是治书之学,只是各有其研究重点,在研究方法上各有其特点,可以说,数字文献学是对传统文献学的继承、发展与创新。
所谓继承,是指数字文献学是文献学在数字时代的延续与发展,它仍然是以中国古代文献为研究对象的“治书之学”,只是数字文献学基于数字理念、数字理论、数字方法和数字工具,利用数字技术及其他基于数字技术的现代技术来分析、研究、整理中国古代文献。数字文献学并不摒弃、排斥传统文献学的研究方法与研究成果,相反,传统文献学的一些基本理论和方法在数字文献学中将得到继承和发展。同时,数字文献学的研究理论、方法和研究成果也必将对传统文献学产生启发和促进作用。
所谓发展,是指文献学是一门具有长久生命力、可以随着时代的进步而不断发展的学问。每一个时代都有每一个时代的学术,即使是同一学科、同一研究对象、同一研究课题,在不同时代,其研究目标、重点和研究方法都会有所不同。近代以来,文献学更加注重与其他学科的结合,更加注重对文献利用的研究,更多地向应用研究倾斜。同样是文献目录,近代目录更加注重文献组织的科学性、系统性、规范性,更加注重目录的层次结构以及主题词、关键词与类目之间的相互关系。文献著录的款目更加详细,以更客观、全面地介绍文献,让读者更清楚地了解文献;文献著录更加规范,以便读者更准确地了解文献的基本信息,让读者在查询时更好地区分相同的文献和不同的文献,以利于在更大范围内实现资源共知共享。对于文献收藏机构,近代目录还增加了一个实用功能,即馆藏文献的排架功能,以对文献进行科学、规范地管理,帮助读者更方便地实现“即类求书,因书究学”的目的。进入数字时代以来,人们对文献学研究的需求发生了变化,人们除了希望能更方便地发现、获取文献外,还希望能深入文献内部,通过全文检索,在海量文献中快速找到所需要的数据、信息和知识;希望对文献内容进行分析统计,通过新的研究方法发现新的知识;希望通过文献内部信息与知识的关联关系,发现隐藏在字面之下、超出特定文献之外的信息与知识。数字文献学较之传统文献学,最大的发展与进步,在于更加强调这门学科的应用性,更加注重通过文献研究,让人们更好地发现蕴藏在古代文献中的信息与知识。
所谓创新,是指无论是理论、方法还是成果上,数字技术都将给文献学研究带来创新性的发展。数字技术的引入,可以说是文献学发展历程上的一次革命性的变化。传统目录学的重点是文献组织与文献分类,其基本单元是文献的“种”,因此,分类只是反映了该种文献的学科属性,同时由于分类方法本身并不十分规范,因此对文献内容的揭示十分有限,所谓“即类求书”,对于不熟悉不精通目录学的人来说,实际上存在着不少的问题。即或如校勘学、辑佚学等主要针对文献内容的研究,往往也会因为条件的限制而影响研究的深度和广度。在数字环境下,数字技术能够将过去不能想也不可能想的文献处理方法变成现实,如果说古代文献数字化后实现的全文检索功能,在前数字时代尚有“引得”“索引”之类的工具可以相仿佛,但基于数字技术的人工智能、机器学习技术及信息分析与挖掘技术则完全是一场革命,“治书”有了新方法新手段,“治书”范围更大,“治书”程度更深,“治书”成果更加适应现代社会学术研究的需要。
数字时代,人们的眼界、观念发生了巨大变化。过去,有谁能想象可以在上万种文献中任意查找一个字、一个词?有谁能想象在没有一个“梅”字的情况下,让计算机在浩如烟海的古籍中将所有与“梅”有关的文献汇聚在一起?而在数字时代,人们不仅有了这类新的需求,现实技术及其发展趋势为满足这类需求甚至更多、更高、更复杂的需求提供了可能或可以预期的想象空间。数字文献学的未来,关键是数字技术如何与中国古代文献的特点相结合,研究内容和研究目标取决于数字时代人们对古代文献利用的新要求。数字文献学未来的发展,将在分析人们不断产生的新需求基础上,将数字技术的优长与中国古代文献的具体情况相结合,来满足人们的需求。
3.2 数字文献学的学科体系变化
数字文献学是一门新兴学科,需要构建学科框架结构、理论体系,探索与该学科相适应的研究方法,这是一个不断发展、不断调整、不断丰富完善的过程,但是,有一点是可以肯定的,正如有学者所指出的那样,数字文献学不是“模仿传统/古典文献学的知识分类体系和分工方法,创造一个包括版本学、目录学、校勘学、考证学、辨伪学、辑佚学等门类的‘数字文献学’新体系,然后逐一对其进行研究”。换言之,数字文献学,不是将传统文献学依靠人脑的分析、推理、判断改为依靠计算机的运算、推理、判断。数字文献学在学科体系方面将有一些结构性的变化,研究思路、研究重点也会有很大变化。笔者认为,变化重点将集中在两个方面:一是与文献、知识组织与发现相关的分支学科,主要涉及传统的目录学;二是与文字比勘相关的分支学科,主要涉及传统的校勘学、辑佚学、版本学、辨伪学等。
第一,变化最大的是目录学。
目录学是研究目录编纂及其发展规律之学,目录学研究的目的,是通过对文献的组织、内容的揭示,帮助人们方便地发现文献。中国有着悠久的目录编制和目录学研究传统,如果从西汉末年开始算起,经历了近两千年的发展,到清代臻于成熟,其标志是《四库全书总目》的编纂。目录学是中国传统学术的基础,零散的学术成果因目录而被组织起来,文献之间的相互关系通过目录而反映出来,读者通过文献目录“即类求书,因书究学”。
中国传统目录学的重点是文献分类。“分类就是将类别不同的书籍,各归其类。”近代以来,学者们多将中国传统的文献分类当作“知识分类”。如姚名达曾说:“书籍原是知识的产物,因此,图书的分类,亦是知识的分类。”其实,姚名达之说,是基于近代学术变化之后的书籍由古代以综合性研究为主转变为专科性研究而言,并且,姚名达所说的“知识分类”,也只是关于某个特定领域知识的分类,而非人们理解的一般意义上的知识(知识单元)。
所谓“目”,《说文解字》云:“目,人眼,象形,重童子也。”《春秋繁露·深察名号》云:“目者,遍辨其事也。”对于文献而言,目即篇目,通过篇目,将不同的主题内容标志、区分开来。对一书而言,篇目可区分不同章节;对众书而言,书目可区分不同的图书。所谓“录”,《说文解字》云:“录,刻木录录也。”宋徐铉注:“录录,犹历历也,一一可数之貌。”意即刻木之痕清晰可辨。“目录”二字连称,意即通过“目”将一书中的不同篇章区分清楚,或者将许多不同的书区分清楚,因此《汉书·楚元王传》记刘向校书,“比类相从,各有条目”,《汉书·叙传下》也说:“刘向司籍,九流以别,爰著目录。”近人孙德谦说:“目录之学,其重在周知一代之学术,及一家一书之宗趣。”孙德谦所谓“一家一书之宗趣”说明了中国古代目录的宗旨:为了让人们通过目录了解一家(学派)、一书的旨趣,而非某书中具体的数据、信息和知识。
在中国传统目录学中,章学诚所谓“辨章学术,考镜源流”代表了最高的学术追求。通过对目录体系、框架(即“分类法”)的设计,以反映某一时代学术与文化的基本格局与特点,将某一特定的文献放置在适当的部类之下,以反映该文献的主要内容、性质。如《汉书·艺文志》通过对学科分类的“略”“类”和反映不同学术流派的“家”进行著录,以揭示某一文献在整个学术体系中的位置和具体学术流派归属,如“六艺略”下《诗》类一共著录了“六家”十三种文献。所谓“六家”,即关于《诗经》的鲁、齐、韩、后氏、孙氏和毛氏六个不同的传承系统,也就是思想学术流派。这种分类方法反映了汉代经学中不同学术流派(“家法”)和学术传承(“师法”),这就是章学诚所说的“辨章学术,考镜源流”。
“辨章学术,考镜源流”是中国传统目录学的精髓,不过,由于传统目录学以文献的“种”为基本单位,而无法深入到具体内容层面。如《诗经》,中国古代、近现代的任何一种目录都是将《诗经》作为一个基本单位来著录、分类和撰写解题的,而在305篇古代诗歌编成的《诗经》中,包含有政治、社会、历史、文学、经济、地理、天文、风俗等各种各类的知识,传统目录“经部诗经类”根本不能包括《诗经》所含全部知识的学科分类,更不用说具体的知识了。因此,章学诚所说的“辨章学术,考镜源流”只能辨章《诗经》之经学流派,即关于《诗经》各家之说及彼此之间思想与学术观点的异同,考镜《诗经》各家各派的思想与学术渊源、传承。
古人早就意识到文献常有“理有互通”“书有两用”的情况,即一部书中可能包含不同性质的内容,因此提出了 “互著”与“别裁”。但是,由于中国古代文献的综合性特点,用分类、主题词(或关键词)或者采用“互著”与“别裁”的处理方法,很难全面、客观地揭示该文献的知识与信息。另外,从理论上讲,传统目录学的架构本来是可以深入到“种”以下的单位,如目录按“卷”“篇”进行著录、揭示,但是,由于中国古代文献从书名、卷名、篇名常常与文献所蕴含的知识、信息缺乏直接关联,即使是通过书名、卷名、篇名,大多也不能准确反映该文献的内容特点,如《弇山堂别集》名为“别集”,实为杂史。至于《燕翼诒谋录》《敬止集》《麈史》等,不细读全书,仅从书名,很难知道其书性质、内容。
无论是在古代还是今天,很多学术问题,讨论的时间很长,涉及的范围很广,相关的文献和作者很多,传统目录很难反映这类学术问题讨论的全貌。清代围绕戴震与赵一清关于《水经注》注释的著作权问题曾发生过一场著名的学术论争(这场论争一直延续至今),涉及的当事人有戴震、赵一清、段玉裁等,牵涉其中以及参与讨论的人更是难计其数,他们的学术观点、学术意见,散见于各自的著作之中,在传统目录中往往散见于各处,很难起到聚类的作用,检索也十分困难。同样,清代校勘学史上,段玉裁与顾广圻之间围绕校勘原则和校勘方法所发生的“段顾之争”是一个著名的学术事件,反映段、顾二人意见的,主要是在二人的来往信件和一些表面上各不相干的学术文章、序跋之中,传统目录以及现代文献分类法也都很难全面反映这类问题。
近代以来,受西方学术研究范式以及图书馆学的影响,学术研究逐渐从综合研究到专科研究过渡,学术研究更多地集中在某一领域、某一专题,目录学也发生了很大变化,文献著录更加规范,文献分类更加符合现代学科的分类,分类更细,分类体系更严密,文献解题更强调对文献的客观描述。这些变化,使得目录的应用性更强。同时,通过主题词与关键词,可以对文献做更详细的揭示,但是,传统目录以文献的“种”为基本单元的特点并没有发生实质性变化。
传统的文献分类法的目的虽然是帮助读者“即类求书,因书究学”,但实际上只能引导读者查找该类书(前提是读者熟悉古代的文献分类方法),却不能直接帮助读者发现、获得具体的知识。换言之,这种分类“粒度”太粗,只能定位到文献,而不能精确定位到文献中所含知识。用今天的眼光来看中国传统目录学中的分类法,实质上是文献分类法,而非知识分类法。中国古代更接近于知识分类的是类书的分类法,只要比较一下《旧唐书·经籍志》《新唐书·艺文志》的分类法与时代相近的《太平御览》的分类法,其间的差异便一目了然。
中国传统的目录学,从文献的分类原则,到具体的分类方法、类目的设置和文献著录都存在着时代的局限性。
第一个局限是分类原则不统一。王云五先生曾指出:“我国图书分类法,……还是多少倾向于形式的分类法。譬如经部的《书》本是一部历史,《诗》本是文学,《春秋》也是历史;《三礼》等书是社会科学,《论》《孟》也可以说是哲学;若严格按性质分类,当然是不能归入一类的。但旧法分类的原则,因为这些书都是很古的著作,而且是儒家所认为正宗的著作,便按着著作的时期和著者的身份,不问性质如何,勉强混合为一类。”中国古代的文献分类法是古代学术的反映,经学是中国古代学术的核心,《四库全书总目》开篇即称:“经禀圣裁,垂型万世,删定之旨,如日中天,无所容其赞述。”中国古代的文献分类法,无论是《七略》的“六分法”还是《四库全书总目》的“四分法”都将“六艺”“经部”置于至高无上的地位。宋代以前,《孟子》只是诸子之书,宋代以后,由于统治者的提倡,《孟子》得列于“经部”,而同样性质的《荀子》《庄子》等则列于诸子类。在中国传统的分类法中,还有不少类目是按文献的体裁来区分的,如史部编年类、纪事本末类等,因为就知识而言,编年之书与纪事本末之书所含的知识几乎是相同的,只是内容编排方式不同而已。一些学科,虽有专书,但数量甚少,因此不能独立成部成类。三国之前,史学还未成为一门独立的学科,因此在《七略》中数量很少的几部史书如《史记》就附于“六艺”的春秋类下,因此南朝阮孝绪说:“刘氏之世,史书甚寡,附见春秋,诚得其例。”像类书、政书等,本身就是东汉以后才陆续出现的文献类型,因此在文献分类法中的设置也在不断变化、调整。还有一些文献,由于人们对其性质认识不同,因此在文献的归类上,各种目录分类各不相同。
第二个局限是它的主观性。中国传统的目录是建立在以封建时代主流价值观为指导的文献分类体系上的,无论是刘歆的《七略》还是清代的《四库全书总目》,概莫能外。四部分类法中史部细分为“义与经配”、记录正统王朝历史的“正史”与记录“偏方僣乱遗迹”和“外方私记”的“载记”相区分,这是基于封建“正统史观”的划分,与现代学术强调的“客观性”格格不入。《论语》性质与《老子》《荀子》等“诸子”无异,然而在《七略》中,前者隶于“六艺略”,后者隶于“诸子略”;在《四库全书总目》中,前者隶于“经部”,后者隶于“子部”。《孟子》一书更为典型,宋代以前,隶于诸子,宋代以后,因为统治者的尊崇,“上升”列为经部。可见,中国古代的文献分类,具有十分明显的主观性、随意性,影响了目录对知识体系的客观反映。
第三个局限是知识体系割裂。中国古代目录主观性很强,分类原则不统一,有的根据经学划分,如五经、九经、十三经;有的按思想观念分,如正史、别史、伪史、霸史;有的按体裁分,如编年类、纪事本末类;有的按范围分,如总志、方志;有的按行业分,如医家、农家,等等。由于分类原则不统一,各家分类方法不一,对于“即类求书,因书究学”自然会有影响。
当然,上面所列中国传统目录学的局限,是以今天的眼光、今天的需求来观察,来评价,并不一定合适。中国传统目录学是建立在古代文化的基础上的,目录的编制、文献的分类方法都是以特定的社会、文化、学术为基础的,有其合理性与必然性。但另一方面,时代变了,文化与学术环境变了,目录学自然应该随之变化,数字文献学即是应变而生、应运而生。
数字时代,传统目录学将迎来新变局。文献经过数字化特别是转换成可编辑的文本文件以后,人们对文献的研究与整理可以深入到文献的字、词和知识单元,并且通过知识挖掘,甚至可以把对文献内容的揭示延伸到具体的文本以外,古今中外文献之间的界线将完全打破,甚至连文献本身也将被转换为二进制的ASCII码(计算机编码),这是适应数字时代而产生的一种新型的文献、信息、知识的记录与传播模式,既是数字与网络表达与传播的需要,有利于计算机的处理,同时,由于文献被 “碎片化”,各信息、知识单元之间的关系更容易被机器识别、挖掘、关联、重组,从而产生新的知识。“目录”的形态可能也将随之变化:目录既可以在传统目录框架包括文献分类体系下重组并细化,也可以根据需要按其他组织方式重组。也许,目录学的未来,更加趋向于揭示知识、揭示不同知识之间相互关系及其变化、重组的规律,“辨章学术,考镜源流”也会以更加细粒度的知识体系呈现出来。
第二,校勘学、辑佚学、版本学、辨伪学的变化。
校勘学是中国传统文献学最早成形的分支学科,西汉刘向、刘歆等人的文献学就是以此为主干、核心的。
文献校勘,是分析、比较文献文本异同,审定正误,恢复古籍原貌的工作。校勘学是研究文献校勘的理论与方法的学问。陈垣曾将校勘学的方法归纳为四种:“对校法,即以同书之祖本或别本对读,遇不同之处,则注于其旁”;“本校法者,以本书前后互证,而抉摘其异同,则知其中之谬误”;“他校法者,以他书校本书,凡其书有采自前人者,可以前人之书校之,有为后人所引用者,可以后人之书校之,其史料有为同时之书所并载者,可以同时之书校之”;“段玉裁曰:‘校书之难,非照本改字不讹不漏之难,定其是非之难。’所谓理校法也。”“比较”是文献校勘四种方法的共同特点。在古代,文献校勘是一件费时、费力、费心的工作,广罗众本不易,分析比较更难。但是,在数字环境下,无论是搜集文献的不同版本还是相关文献,均较古代方便得多。同时,对于一般的文字比较,如对校法、本校法、他校法,在计算机的帮助下,也较传统时代方便得多。早在十多年前,就有学者开始研究古籍的自动校勘,希望利用计算机字符串的校异功能进行辅助校勘,并设计了古代人名表、地名表、各种年表、避讳字、异体字、关联词等辅助工具。自动校勘,看起来简单,但所涉及的问题多且复杂,校出异文,并通过一些工具如字表、词表为研究者提供参考,虽然可以解决一些简单的问题,但是,古籍的情况十分复杂,如果将文献校勘简单地看作是不同本子之间文字异同的比较,那是将文献校勘的学术意义与价值低估了。
文献校勘之难,难在定是非,难在追溯文本变异的源流,这是传统校勘学的重点与难点。中国古代的校勘学历来有两条不同的“路线”,代表两种不同的校勘理念,一种是以清代顾广圻为代表的所谓“以不校校之”,重在校异同,尊重本文,不轻下断语的文献校勘理念,当代胡适亦属此派。另一种是以清代戴震、段玉裁为代表的既校异同,也须定是非的文献校勘理念,高邮王氏父子、当代陈垣皆属此派。两派之间看似针锋相对,但实际上并非不可调和。文献校勘以是正文本为根本目的,校其异同,提出自己的观点,这是两派都赞同的,所不同者,只在于是否需要改正“错误”的文字而已,折中的做法,完全可以将自己“定是非”的意见通过校勘记、注释等方法说明。因此,“定是非”仍是文献校勘的重点与难点。
段玉裁说:“校书之难,非照本改字不讹不漏之难也,定其是非之难。”要定是非,则须弄清古书错误的原因。文献校勘,涉及许多相关的学科知识,清代王念孙曾通过对《淮南子》的校理,归纳出古书错误64例(实际为62例),所涉及的知识,包括版本学、音韵学、训诂学、文字学。近人陈垣通过对《元典章》的校勘,归纳出“行款误例”“通常字句误例”“元代用字误例”“元代用语误例”“元代名物误例”,共6大类50条,除一般的校勘学知识外,还涉及历史学、语言学知识。数字环境下,这类工作比古代具有明显的便利条件,计算机可以辅助完成大量的文本比较甚至纠错工作。需要进一步思考的是:像段玉裁、顾广圻、王念孙、陈垣这类学者,本身即为文献名家,今人能望其项背者,盖寥寥耳。但是,在数字环境下,是否可以利用数字技术、现代信息技术的优长,在方法上、工具上有所突破?例如:通过建立古代文献语料库,各种字表、词表,如通假字表、形近字表、古今音韵表,各种知识库,如古今人名字号知识库、古代地名知识库、古代典故知识库、古代名物知识库等,在校勘时自动发现可疑处,自动给出参考文本。我们相信,结合数字技术、人工智能技术,将可以在古代文献校勘的方法上有新的突破。
在文献学诸分支学科中,辑佚更多属于操作层面的工作,主要包括从古籍中辑录散佚文字、对辑出的文字进行考订和编排。大规模的古籍数据库可以为辑佚提供丰富的资料来源,利用全文检索,通过特定的书名、关键词等可以很方便地找到所需要的文本,最后进行编排。在辑佚方面,数字技术的作用主要是通过大规模的古籍数据库和全文检索来实现的。
古代文献辑佚的难点在于:古人引书,没有像今天这样严格的学术规范,除引用错误之外,大多未必能够照录原文,省略、改写者比比皆是,注文、按语与正文互相混淆,这些都给后世辑佚者增加了不少困难,甚至造成误解。文献辑佚中省略、改写原文的处理,借助数字技术可以在一定程度上得到解决,或者由计算机提供一些参考。例如,对于多种文献都引用同一条佚文的情况,可以通过引用该文的互相匹配的情况得出一个概率上的参考;也可以通过引文行文的语言风格来大致判断是引用原文还是引用者改写而成。如果让计算机通过行文风格来判断是否为原文,可能需要通过对特定文献的行文规律的识别,建立相应的语言模型,然后进行分析判断。如何建立这类语言模型,将是数字文献学的基础条件和未来的重点工作。
文献辑佚中,区分正文与附加文字如注释等,也可以通过建立特定的语言模型来解决。今本《竹书纪年·帝舜有虞氏》记载“鸣条有苍梧之山,帝崩,遂葬焉,今海州。”王国维因今本《竹书纪年》旧题有梁沈约注,而海州设立,时在沈约之后的东魏,以此作为今本《竹书纪年》为伪书的证据。其实,“今海州”一句,显系后世注文滥入正文者,清代学者洪颐煊《竹书纪年》校正本、陈逢衡《竹书纪年集证》早已指出“今海州”三字为“后人所加”。王国维之误,即是因注文与正文混淆所致。《水经注》的情况就更为典型,《水经》与郦道元注文曾完全混淆在一起,“经文、注语,诸本率多混淆”。因此,将《水经》正文与郦道元注释区分开来曾是“郦学”最重要的研究内容。注释等非正文内容滥入正文的错误,处理起来非常困难,但如王国维发现“海州”一词与《竹书纪年》标注的时代不符这类问题,在传统的文献学研究中,完全靠研究者的学识、眼力,而在数字环境下,则可以通过文本中地名、人名以及其他具有时代特征的专名与正文标注时代是否存在矛盾来自动发现,再由研究者判断矛盾的原因。在这类情形下,中国古籍专用大语言模型将可以发挥重要的作用。在前面提到的《水经》正文与郦道元注释如何区别的问题上,也有一些可以通过计算机进行处理的办法。例如,乾隆时编修《四库全书》时,负责从《永乐大典》中辑出《水经注》的戴震(同时也是《四库全书总目》“水经注”条撰稿人)在研究时已经发现了《水经》正文与郦注在行文上各自的特点:“凡水道所经之地,《经》则云过,《注》则云迳。《经》则统举都会,《注》则兼及繁碎地名。凡一水之名,《经》则首句标明,后不重举;《注》则文多旁涉,必重举其名以更端。凡书内郡县,《经》则但举当时之名,《注》则兼考故城之迹。”像这种通过分析“经”“注”各自行文特点从而进行区分的情况,也可以通过计算机进行预处理,帮助研究者做进一步的分析判断。与文献辑佚有关,不少文献如《全唐诗》《全唐文》多有误收非唐人作品的情况,利用计算机系统进行大数据的比较分析,也会给这项工作带来极大的方便与帮助。
传统的版本研究主要包括两方面的内容:一是通过文献的外在形态,如版式、牌记、字体、纸张、墨色、装帧、藏印,以及避讳、刻工等具有明显特征的因素来鉴定;二是根据其内容,通过文本分析,判断其版本系统渊源。前者需要收集大量的资料进行仔细比对,同时,还要靠研究者的经验和眼力,前人称之为“观风望气”。在数字环境下,传统文献学的版本鉴定将更为方便,一些问题,如行款、刻工、牌记、避讳、藏印、纸张(甚至包括纸张的纤维结构)等,可以通过一些专业数据库来查询、比对,一些需要进行图像比对的内容,如字体、版式等,在现代图像处理技术的帮助下,也更为容易,至少可以为研究者提供很大的帮助。
关于版本渊源的鉴定,这是版本鉴定中更具学术性的问题,它需要对文献内容进行深入分析,通过比较,来判定各本的版本系统。例如,《水经注》有残宋本,有明影宋抄本,有《永乐大典》本,以及其他许多抄本、刻本和笺注本,确定各本的版本系统是《水经注》研究的重要内容。《红楼梦》的版本情况更复杂,除各种早期抄本以外,乾隆五十六、五十七年的程甲本、程乙本的各种重刻本(主要是程甲本)之间,有的是直接根据程甲本重刻的,有的则是根据程甲本的重刻本再重刻,甚至递刻多次。在具体的研究方法上,确定各种本子的版本系统主要是通过对一些关键字的比对,分析异同,并结合其他因素进行综合判断,然后确定该版本的系统归属、递刻的承继关系。笔者曾使用这种方法对《红楼梦》东观阁本、文畬堂本、宝文堂本、善因楼本、抱青阁本、三让堂本、同文堂本、纬文堂本、翰选楼本、五云楼本、文元堂本、忠信堂本、经纶堂本、务本堂本、经元升记本、登秀堂本等进行过对比研究,以确定它们各自的版本系统。过去进行这类研究,完全靠逐字逐句比对完成。在数字环境下,这类工作让计算机来进行,可以轻松愉快地完成。如果更进一步,还可以借助人工智能技术对不同版本的文本进行更广泛、深入的分析,从差异中找到不同版本之间的区别,根据差异的程度、细节,让计算机给出初步的分析意见,供研究者参考。这项工作的基本方法与文献校勘有相近之处。
文本比较方法除了上述校勘、辑佚、版本学采用外,文献学其他分支学科中,凡涉及需要进行文本内容分析的,也都会用到,如文献辨伪。明代著名的文献学家胡应麟是中国历史上第一位总结、归纳文献辨伪理论与方法的学者,梁启超曾评价说,中国古代的文献辨伪,到了胡应麟时,“才成为一种学问”。在胡应麟总结的文献辨伪八种方法中,大多涉及了文本比较:“凡覈伪书之道,覈之《七略》以观其源,覈之群志以观其绪,覈之并世之言以观其称,覈之异世之言以观其述,覈之文以观其体,覈之事以观其时,覈之撰者以观其托,覈之传者以观其人。覈兹八者,而古今赝籍亡隐情矣。”在古代,进行这类文本内容的比较,不仅对学者有很高的专业水平要求,同时也是费时费力的工作,而在数字环境下,这类工作就变得容易多了,数字技术完全可以成为人们最有力的助手和工具。
上面的简单分析,是建立在我们对数字技术还处于初步探索阶段的一些十分粗浅的认识,随着研究的深入,数字技术将会给文献学研究带来更多、更新的研究思路、研究方法,数字文献学的理论与方法、数字文献学的学科建设也将随之而不断丰富和完善,从而大大推动文献学学科的发展。
数字文献学是一门新兴学科,也是一门需要理论、方法与实践相结合的学科,它的发展,面临着许多新的问题,有的是通过实践才能发现的问题,有的是在实践过程中新出现的问题。就当前的数字文献学研究与实践而言,热点很多,如运用人工智能技术包括机器学习等技术进行古籍自动标点、自动注释、自动翻译等。这些热点问题,是数字文献学在古代文献研究与整理中最基本、相对也是最直接的应用,但意义重大,可以通过具体的实践,发现数字文献学需要研究解决的问题,这对于数字文献学的学科建设具有重要的学术价值。同时,这些实践,对于数字文献学在中华优秀传统文化的继承和弘扬中发挥作用具有重要的现实意义。
需要特别强调的是,数字文献学与传统文献学具有不同的研究范式、研究方法、研究手段与研究内容,研究目标与结果也有很大的不同。但是,数字文献学是在传统文献学的基础上发展而来,是文献学发展到数字时代的一次飞跃。数字文献学与传统文献学之间,不是前者取代后者的关系,而是共存与共同借鉴、共同发展的关系。在文献学研究的很多领域,传统的研究方法依然有其存在与发展的空间,如传统目录学,通过对目录编制方法、文献分类方法发展变化的历史及其规律的总结,将有助于数字文献学关于文献与知识组织方法的探索;传统校勘学在理论与方法上的研究,可以为数字文献学关于文本比对、文本分析提供帮助与启发。在文献学的实践领域,诸如古代文献的整理,古代文献的深入研究,传统的研究方法仍将继续发挥作用,甚至利用数字技术进行的很多文献整理工作,还需要用传统文献学的方法来审校、验证,传统文献学的方法及其发展,将为数字文献学的发展提供参考、借鉴。
数字文献学不是研究如何用数字技术取代人在文献学研究中的主体地位,数字技术可以为研究者提供新的思路、新的方法,但是,完全离开文献研究者而单纯靠计算机自动去处理,恐怕并不现实。数字技术、人工智能技术等,对于文献学研究来说,是帮助这门学科发展的工具和助手,而非消灭这门学科的敌手。尽管未来在某些领域,计算机可能不需要人的干预而独立完成任务,但是,提出任务、提出要求、采用适当处理方法的还是人。
4 结语
数字文献学,就整个学术研究而言,是一门非常“小众”、非常专业的学科,不过,它却是一门对其他学科特别是人文研究具有基础性的、支撑性作用的学科,它所要承担的不仅有自身的学科建设责任,更要承担起中华优秀传统文化的创造性转化和创新性发展的历史使命。
数字文献学是一门新学科,它的学科体系、理论与方法还有待完善。数字文献学因其学术性与应用性结合的特点,决定了这门学科必须理论联系实际,对实践中出现的问题进行研究,在实践中发现问题,解决问题,在此基础上丰富和完善学科的理论与方法。
数字文献学是一门交叉学科,开展数字文献学研究涉及人文社会科学、自然科学中的许多专业领域,它的产生与发展,得益于不同学科理论与方法的互相启发、互相借鉴。如何消弭文献与数字技术之间的专业隔阂将是数字文献学未来发展的最大挑战。数字文献学学科的建设,关键在人,难点也在人,如果文献专家不了解数字技术,技术专家不了解古代文献,二者的深度结合是很难实现的。因此,数字文献学的发展,需要复合型人才。
数字文献学是一个不断发展的有机体,我们今天关于数字文献学的理解还是很浮浅、很表面,甚至有可能是错误的,随着研究的深入,一定会有更多、更新的问题提出,我们对这门学科的认识将在研究实践中逐步加深。我们对数字技术、现代信息技术的认识还十分有限,况且,数字技术本身还在快速发展,如何将数字技术、现代信息技术应用于文献研究,还有许多认识的空白、甚至误区,数字文献学可以说还是一片待开垦的处女地,有待人们进一步去探索、去研究,而这正是数字文献学的未来,正是数字文献学的魅力所在。
陈力(四川大学历史文化学院教授,国家图书馆研究馆员)
本文刊发于《中国图书馆学报》2024年第6期。
来源:中国图书馆学报
|