学术讲座

当前位置: 首页 -- 人才培养 -- 学术讲座 -- 正文
讲座回顾 | 陈诗沛:LoGaRt地方志研究工具的原理、操作与运用前景
发布时间:2022-09-02        文章来源:        浏览:

2022年5月19日晚7时,台湾大学计算机系博士、哈佛大学博士后、德国柏林马克思·普朗克科学史研究所陈诗沛研究员应邀为同学们带来了题为“LoGaRt地方志研究工具的原理、操作与运用前景”的线上精彩讲座。本次讲座由57365线路检测中心副教授向静老师主持,吸引了来自全国三十余所高校及研究机构近两百人参与,整场讲座持续约两小时。

21世纪初以来,大量珍贵稀少的史料走向数字化,打破了时间空间的限制,极大便利了历史学者们开展研究。随之产生了新的问题,既然可以看到这么多以往很难放到一起的材料,对研究来说能带来什么影响和效益?能不能让我们做到以前不能做的研究?数字工具到底能为历史研究带来什么可能?这便是陈老师本次讲座试图回答的问题。

本次讲座由三个部分组成,分别为LoGaRt的介绍、演示和运用案例分析。陈诗沛老师首先介绍到,地方志作为一种从南宋时期开始专载地方知识的历史文类,其编纂者多为地方官员地方士绅,主要记录地方上“知识”,大多是为了地方政府治理目的所需,地域多为行政区如省府州县厅,少为区域、河流流域。其特殊性主要表现在两个方面,一是记载时间跨度长、地域范围大;二是记载的门类和主题有相当一致性。研究地方志能帮助我们更好理解地方政府与朝廷、与地方精英间的关系。马克思·普朗克科学史研究所的地方志研究项目以旧方志为主,即不包括1949年以后的方志。

陈老师指出,不同年代地域的方志常用一组“类似”的主题来描述地方,如地理、建置、物产、风俗、户口、田赋、历代职官、人物、气候、灾异、祥异、艺文等。每套方志都可以被看做一项“地方数据搜集”工程,由编纂者(地方官员士绅)先搜集材料,然后进行选择、整理、编辑,最后才能出版,因此每套方志都是一个小的数据库。地方志以门类或主题为主轴,虽有朝廷颁定凡例,编纂者仍可根据人的需求、地域的特殊性自行决定目录结构。地方志历经八百年,其结构由简到繁,但整体上仍相当一致。据陈老师推估,历史上曾编纂的方志介于一万二千至两万套之间,而现存方志至少八千套,已全文数字化的至少有六千套,因此全文检索结果的统计分布能够“大略”代表所有历史方志整体的统计分布。

随后,陈老师以我国著名地理学家陈正祥先生于上世纪60年代研究的“蝗神庙”为例,详细说明了把方志当作全国范围的数据库来使用的可能性。陈正祥先生调查了3000本方志中蝗神庙的纪录,花了8个月时间绘成全中国范围内的分布图,同时查阅明代府志中的蝗灾纪录,两者相互搭配研究。这种方法耗时耗力,不容易重复,但现今已有许多方志数据库,那么我们是否可能用同样的方法做别的问题?此外,陈先生使用的数据并不完全公开,只有印出来的图,那么在数字时代下是否有比较好的公开分享机制?为了解决上述问题、重现此研究范式,LoGaRt应用而生,从4000套方志中搜集数据、掌握数据,能让我们通过可视化工具,发现更多现象。

LoGaRt(Local Gazetteers Research Tools)是马普所专门为地方志研究打造的一套工具,其背后是基于一套如何在大量数据底下使用地方志的研究方法。基于地方志的数字研究方法将整个地方志文类视为有意义的整体,对于研究的时间、空间规模均有所提升,甚至可能带来典范的移转以及改变我们对于这个文类的理解。以数字技术重现研究范式,任何人都可运用在不同的研究题目中,通过检索后得到所需数据,进行可视化统计分析,最终得出模式。

现有的数字方志库包括商业类型的爱如生数据库(共4000套,全文数字化)、雕龙(4131套,部分数字化全文)、EastView(7000套,部分数字化全文),以及国家图书馆数字方志(大约4,500套,约1/3已全文数字化)、中国哲学电子书计划CText、日本汉藉Kanripo各数百套等。这些方志库图文并茂,有很好的线上阅读环境,可全文检索,快速跳至关键词出现处阅读,但难以进行整体、大规模的分析。值得一提的是,华东师范大学的“数字方志集成平台”为大量现存方志提供鸟瞰视野,建有多种分析工具,但使用材料主要为元数据,查看方志内文时存在一定困难。

陈老师进一步介绍到,LoGaRt能够帮助研究者将已数字化的方志视为整体来问问题,利用现存地方志的数字全文,将隐含于其中的知识解放出来,通过将它们变成电脑可以了解操作的“数据”,两种结构(数字全文平面化),帮助研究者跨方志、跨时间、跨地域搜集数据,支持大规模研究与范式发现,可应用已有的地图、统计可视化工具来分析数据,通过多重面向掌握数据的概况及模式。其工作流程是,首先通过跨方志搜集数据,得到结果数据集,可进行检索与文本标记,然后运用可视化统计工具,获得数据集的整体概观(远读、鸟瞰),也可远、近读切换,分轴剖析,块状理解数据,最后进行调整提问、修改检索、改善文本标记,以增进数据集的正确性完善性。

随后,为了更好帮助大家操作LoGaRt,陈诗沛老师悉心逐步进行了静态系统演示。

讲座的第三部分是陈老师对LoGaRt的运用前景、研究案例分析。可分为以下几个方面:第一,运用页面全文检索,搜集数据,分析数据整体分布,辅以精读,诠释数据,如南京信息工程大学曹玲对玉米引入中国栽种传播路径时程的研究,重庆西南大学李富强与曹玲对桑蚕知识如何通过行政力量(方志)藉以传播的研究,英国剑桥大学吴蕙仪对方志中的“西洋人”如何大幅被“星野”章节所引用成为边陲地方向中央证明其地位正统的手段的研究等等;第二,跨方志提取同主题章节内容,如社会科学院张英聘用“公署”章节深入解析方志体例的研究,故宫博物院徐斌看方志中体现古代城市规划“表南山为阙”的实践的研究等等;第三,关于科学在地方志中的研究,如田纳西大学Shellen Wu用方志检视“科学”在地方上的传播与实践的研究,中国科学院大学张佳静关于清末方志行政图开始使用西式经纬线的现象及其背后意涵的研究,天普大学Peter Lavelle关于从方志中看清末民初农业科学的发展的研究等等;第四,运用全文标记搜集数据(将文字列表转换为表格数据),如上海交通大学车群搜集洞庭湖区域的水利设施,厘清洞庭湖与江汉平原300年的水位更替与水利工程兴修之间的关系的研究,爱丁堡大学Gregory A. Scott搜集佛寺毁、重建的数据的研究,威斯康辛大学戴思哲搜集方志中的学校藏书清单作为研究书籍流通与知识传递的大型基础数据的研究等等。

[美]戴思哲著,向静译:《中华帝国方志的书写、出版于阅读:1100-1700年》,上海人民出版社,2022年1月

讲座最后,陈诗沛老师总结到,LoGaRT是将已数字化的方志视为整体来问问题,可将文本转换为数据,可帮助研究者跨方志、跨时间地域、快速的搜集数据,支持大规模研究与范式发现,还可应用已有的地图可视化工具来分析数据,从多重面向掌握数据的概况及模式。这套方法有几个方面也适用于其他文类,如从整体问问题(搜集数据),通过可视化、统计分析从而快速掌握数据概貌,远读、近读快速切换等。此外,在运用时还应该注意到诠释的陷阱,不能只从表面诠释数据,这取决于研究者的历史研究功力以及对材料的正确理解。随后,陈老师在互动环节对听众们的提问进行了悉心解答,向静老师对整场讲座进行了简要总结和点评,本次讲座在热烈的气氛中落下帷幕。

文案:张卓

57365线路检测中心官网☞首頁请进