建瓯市论坛

注册

 

发新话题 回复该主题

数字人文在古代文学研究中的初步实践及学术 [复制链接]

1#
白癜风好治疗么 http://pf.39.net/bdfyy/dbfzl/160319/4793212.html

摘要:古代文学研究的资料离散和时空分离这两大难题,人工较难解决。运用数字人文技术开发的文学编年地图平台,可实现浏览检索、关联生成、数据统计、时空定位和可视化呈现五大功能,为解决资料离散和时空分离两大难题提供了可能。数字人文研究将改变古代文学资料查询检索方式,实现从电子文献的分词定位检索到结构化数据库的分类提取,从点状检索到网状关联,从逐条拷贝到分类打包;能把传统的静态文本变为可随意组合的动态文本;能改变文学史的认知角度和方法,时间上细化文学史的时间粒度,空间上深化文学的空间层次。由数字人文激发的编年系地并重的理念,将改变作家年谱和文学编年史的书写范式。数字人文技术,还可以自动对比识别作品间的互文关系,重建古代文学的历史现场,提供古代文学阅读欣赏的崭新体验。

关键词:数字人文唐宋文学编年地图结构化数据库

作者王兆鹏,中南民族大学文学与新闻传播学院教授;邵大为,中南民族大学数字人文资源研究中心讲师。(武汉)

责任编辑:李琳

来源:《中国社会科学》年第8期P—P

数字人文(digitalhumanities)以多学科交叉的学术团队为研究主体,以数据为基础、平台为支撑,运用数字技术方法来研究人文科学。近年来,数字人文在理论探讨、应用研究、技术支持三个层面,取得了长足进步。而中国古代文学研究,以问题为导向,以内需为动力,积极运用数字人文技术方法来探索新途径、拓展新空间,在平台建设、文本分析、可视化研究方面,也取得可观的实绩。但中国古代文学的数字人文研究,目前还处在起步阶段,倡导性呼吁、可行性论证和案例性分析较多,数字人文对古代文学研究究竟有什么作用?能解决哪些传统方法较难解决的问题?能在研究观念上有什么更新?尚未见系统思考和具体答案。我们数字人文资源研究团队,在十多年的探索过程中,有一些甘苦和体会。兹以唐宋文学编年地图平台的实践为中心,侧重谈谈数字人文的地理信息系统和可视化技术在古代文学研究中的学术意义。

一、实践的目的:探讨解决资料离散、时空分离的可能性

古代文学研究,目前至少存在着资料离散和时空分离两大难题,不借助数字人文技术就较难突破和解决。

文献资料的离散,有“同类异处”和“异类分隔”两种状态。“同类异处”是指,同一专题、同一领域、同一学科的材料,往往分散在不同的文献里。纸本文献如此,电子文献亦然。加之载体和藏所的分散,同类同领域的文献常常处在离散状态。“异类分隔”,是知识分类造成的资料分离。由于人类知识的广泛性、丰富性和复杂性,不同性质、不同领域的文献资料总是分门别类收藏和存储。比如,书写梅花的文学作品,收藏在文学领域的总集、别集里,而介绍梅花生物特性、栽培技术的知识,则在植物学著作里。同一事物的相关文献,因知识的分类不同,而隔绝在不同的知识领域。无论是“同类异处”还是“异类分隔”的文献资料,人力都难以改变其离散状态。

古代文学研究的时空分离,体现在两个层面。在观念意识层面,是时间意识强烈,而空间意识淡薄。文学史研究,注重时间的变化进程,而忽视空间的离合分布;时间进程的描述多,作家活动、作品创作的地理空间分布的考察相对少。作家年谱、别集编年笺注和文学编年史之类的著作,注重时间编年而不注重空间系地,时间信息具体而空间信息模糊,时间感强而空间感弱。

在实践操作层面,受思维方式和纸本载体功能的限制,文学史和文学编年史的呈现,只能是单向呈现,而不能多向呈现。按照时间序列呈现文学史的发展历程,就难以兼顾空间序列的分布和变化。如果按照空间序列来呈现各地文学图景,又难以从时间序列上观察和呈现一代文学的发展进程。简言之,以时间为轴心,空间秩序就被割裂;以空间为轴心,时间的序列就被打断。传统的年谱著作和文学编年史,还有一个难以突破的障碍,就是无法超越时空的局限,只能呈现同一时空里的作家活动和创作,而无法呈现不同时空中作家的活动和创作。在一本作家年谱里,我们通常只能了解一个作家的活动,而难以了解同一时间里多个作家在不同空间里的活动。比如,我们从《杜甫年谱》知道,安史之乱前夕的天宝十三载(),杜甫在长安,过着“朝扣富儿门,暮随肥马尘”的窘迫生活,但我们无法从《杜甫年谱》里知道,这一年,李白在哪里,岑参在哪里,高适在哪里,王维在哪里。有时,我们知道一个作家在一个地方的活动状况,而难以知晓更难以呈现不同时间里不同作家在同一地方的活动情况。比如,我们知道,苏轼曾谪居*州五年,写有《念奴娇·赤壁怀古》和前后《赤壁赋》等名作,可在苏轼之前和之后,哪些作家在*州寓居过、写有哪些作品,我们并不熟悉。苏轼年谱,只包含苏轼一生的活动情况,而不可能囊括苏轼同代作家的活动详情。《苏轼年谱》可以告诉我们,苏轼一生到过凤翔、开封、杭州、密州、徐州、湖州、*州、惠州、儋州等地,但不能告诉我们,在苏轼生前和身后,还有哪些作家到过这些地方、写有什么作品。

数字人文技术,怎样解决资料离散和时空分离这两大难题呢?运用数字人文技术开发的唐宋文学编年地图平台,就试图实现文献资料的集成化和文学编年史的时空一体化。

唐宋文学编年地图平台,旨在集成性地囊括历年来有关唐宋作家作品编年的成果信息,包括年谱、别集笺注、考订论文等。要让计算机能够识别处理这些编年文献资料,并在地图中可视化呈现,需要经过数据建模、数据转化、数据关联和呈现三个阶段。

数据建模,是为数据挖掘、信息提取建立模板。而建立什么样的模板,取决于平台的要素和功能。文学编年地图平台,包含时间、地点、人物(作家)、事件(活动和创作)、作品这五大要素,需要实现浏览检索、关联生成、数据统计、时空定位和可视化呈现这五大功能。不同要素只有形成一定的结构之后才能产生功能。因而,数据模板,需要围绕时、地、人、事、文这五大要素来设计,使之成为关系型结构化数据库。

数据转化,是根据数据模板,挖掘提取文献资料中时间、地点、人物、事件和作品等有效信息,转化为计算机系统可以识别、关联和统计的数据。数据转化,不是简单机械地将来源文献转换为数据信息,而是从大量芜杂的信息中进行挖掘提取。为保障底层数据的可靠性,首先要确保数据来源的可靠性,尽可能选择那些获得学界普遍认可的学术含量高的优质成果作为数据录入的依据;其次要确保数据来源的真实性,要充分考虑文献来源信息的规范性和完整性。由于来源文献著述的目的不同,体例各异,难以满足数据模板所需的各类信息,因而,数据录入转化时,需要补阙、正误和标引,以提升数据的可靠性和完整性。

补阙,主要补时和补地。补时,是补充来源文献缺失的编年信息;补地,是增补来源文献缺失或不详的系地信息。正误,主要订正来源文献的编年系地错误。

古今年谱,考订作家的生平行事和作品的编年系地,讹误在所难免。比如,《*庭坚年谱新编》载述,徽宗建中靖国元年()春天,*庭坚离蜀出川,沿长江东下。正月初离江安,过泸州,三十日抵合江;二月三日,到达汉东(今湖北随州);二月二十六日,到万州;三月,至峡州。此行程不合常理。然年谱是依据*庭坚《题校书图后》所言:“建中靖国元年二月甲午,江西*庭坚自戎州来,将下荆州,泊舟汉东市。”原来问题出在“汉东市”的理解和空间定位上。随州,又名汉东郡,故宋人多用汉东指随州,于是年谱作者很自然地想到这个汉东就是随州,而没有考虑到行程距离的可能性和空间的合理性。我们怀疑这个“汉东市”应是四川境内长江边上的一个市镇。经向年谱作者请教,作者在《大清一统志》里查到江津县西南一百五十里的江边有“汉东市”。重新确定“汉东市”在江津县,*庭坚的行程就豁然贯通。类似问题,在作家年谱和别集笺注中所在多有,因此数据录入和复核时,要时刻

分享 转发
TOP
发新话题 回复该主题