近些年來(lái),全球史學(xué)界和圖書館界掀起一股構(gòu)建歷史數(shù)據(jù)庫(kù)的浪潮,主題、形式各異的歷史數(shù)據(jù)庫(kù)層出不窮,研究者所能掌握的史料規(guī)模呈現(xiàn)出巨量增長(zhǎng)。如何做到既有量的增長(zhǎng),又有研究方法的提升,特別是發(fā)揮數(shù)據(jù)史料的特點(diǎn),形成比肩甚至超越過(guò)往紙質(zhì)史料利用深度和效率的研究,推動(dòng)學(xué)術(shù)發(fā)展,便成了亟待探索的新問(wèn)題。筆者認(rèn)為,“互聯(lián)”“互通”是互聯(lián)網(wǎng)的重要特點(diǎn),歷史數(shù)據(jù)庫(kù)的構(gòu)建與研究,應(yīng)重視數(shù)據(jù)庫(kù)自身信息的“內(nèi)連接”和數(shù)據(jù)庫(kù)之間信息的“外連接”,以盡可能地實(shí)現(xiàn)“數(shù)據(jù)追蹤”,由此方能發(fā)揮電子數(shù)據(jù)的優(yōu)勢(shì),推動(dòng)新技術(shù)環(huán)境下史學(xué)研究的深化發(fā)展。
歷史數(shù)據(jù)庫(kù)的“內(nèi)”與“外”
“內(nèi)連接”和“外連接”本是信息學(xué)科針對(duì)關(guān)系型數(shù)據(jù)庫(kù)(relational databases)進(jìn)行數(shù)據(jù)查詢、分析時(shí)所采取的方法,本文將此概念移用于歷史數(shù)據(jù)庫(kù)的構(gòu)建與研究。“內(nèi)連接”主要包含兩層含義:一是指某一數(shù)據(jù)庫(kù)在建設(shè)時(shí)力爭(zhēng)利用多來(lái)源史料中能相互匹配的信息,進(jìn)行信息連接以擴(kuò)充數(shù)據(jù)庫(kù)內(nèi)容;二是指利用某一數(shù)據(jù)庫(kù)進(jìn)行研究時(shí),應(yīng)注意其中信息的相互連接,以拉長(zhǎng)研究的時(shí)段、代際或擴(kuò)大空間范圍等!巴膺B接”主要是指不同主題但內(nèi)容、關(guān)系等方面具有連接可能的數(shù)據(jù)庫(kù),在開放的前提下,實(shí)現(xiàn)相應(yīng)數(shù)據(jù)信息的連接,從而突破單一數(shù)據(jù)庫(kù)主題明確但信息范圍相對(duì)局限的制約,從學(xué)術(shù)研究層面真正實(shí)現(xiàn)數(shù)據(jù)庫(kù)建設(shè)與研究的“共享”與“共贏”。
歷史數(shù)據(jù)庫(kù)信息“內(nèi)連接”與“外連接”的最終目的,是將存儲(chǔ)于各主題數(shù)據(jù)庫(kù)中的相關(guān)信息逐步從靜態(tài)推向動(dòng)態(tài),實(shí)現(xiàn)“數(shù)據(jù)追蹤”。如利用多種材料或不同數(shù)據(jù)庫(kù)的互相連接,可以連綴起個(gè)人和某些群體不同時(shí)間節(jié)點(diǎn)的信息,形成一種動(dòng)態(tài)化的“追蹤數(shù)據(jù)”!白粉檾(shù)據(jù)”的形成,使得某些歷史人物甚至群體的經(jīng)歷更加豐富或連續(xù)起來(lái),這對(duì)理解和研究歷史人群的社會(huì)行為具有極高的學(xué)術(shù)價(jià)值。
連接不同史料與信息
即便是單一主題的歷史數(shù)據(jù)庫(kù),其包含的具體史料也是規(guī)模龐大、類型繁多的。這些史料中的某些信息是能被連接起來(lái)、形成數(shù)據(jù)鏈的。如“中國(guó)近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(kù)(1830—1930)”收錄了多種晚清民國(guó)的報(bào)刊和個(gè)人著述,總字?jǐn)?shù)達(dá)到1.2億。一些學(xué)者通過(guò)檢索的方式和統(tǒng)計(jì)工具的幫助,將某一具體概念或思想主題(如“主義”“青年”“民族”等)連接起來(lái),從而能夠分析這些近現(xiàn)代史上重要概念的形成與歷史演變,“驗(yàn)證”或“突破”了既有的研究結(jié)論,實(shí)現(xiàn)了學(xué)術(shù)創(chuàng)新。
人物主題數(shù)據(jù)庫(kù)是較為常見的一類歷史數(shù)據(jù)庫(kù),通過(guò)內(nèi)部連接,往往能夠形成以人物為主干的信息鏈條。筆者正在建設(shè)的“民國(guó)大學(xué)生信息數(shù)據(jù)庫(kù)”,即是以個(gè)人基本信息為基礎(chǔ)的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中每一名學(xué)生的信息既有個(gè)人自身的,也有家長(zhǎng)和保證人的。通過(guò)數(shù)據(jù)庫(kù)內(nèi)部連接計(jì)算發(fā)現(xiàn),很多家長(zhǎng)本身也是大學(xué)生,能夠連接形成追蹤數(shù)據(jù),進(jìn)而獲得三代人的基本信息,這為中國(guó)近現(xiàn)代史上多代際教育獲得與社會(huì)流動(dòng)研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。以親友為主的保證人通常是學(xué)生最主要的社會(huì)關(guān)系,將不同學(xué)生的保證人信息進(jìn)行連接,可以發(fā)現(xiàn)很多學(xué)生具有同一家長(zhǎng)、共同親友,也就挖掘出了學(xué)生的家庭、社會(huì)關(guān)系網(wǎng)絡(luò)。
連接不同主題數(shù)據(jù)庫(kù)
中國(guó)歷代人物傳記資料庫(kù)(簡(jiǎn)稱CBDB)的領(lǐng)導(dǎo)者、哈佛大學(xué)教授包弼德指出,隨著“數(shù)字人文”的發(fā)展,歷史數(shù)據(jù)庫(kù)的建設(shè)大為增加,數(shù)字?jǐn)?shù)據(jù)(史料)迅速膨脹,數(shù)據(jù)生產(chǎn)者之間的協(xié)作也就越來(lái)越重要。通過(guò)數(shù)據(jù)庫(kù)的開放和協(xié)作,形成不同主題數(shù)據(jù)庫(kù)的信息連接,是其中最能發(fā)揮數(shù)字?jǐn)?shù)據(jù)優(yōu)勢(shì)、推動(dòng)學(xué)術(shù)研究的一種方法。
“民國(guó)大學(xué)生信息數(shù)據(jù)庫(kù)”收錄的雖然主要是民國(guó)時(shí)期教育精英的基本信息,但數(shù)據(jù)庫(kù)中早期學(xué)生的家長(zhǎng),往往上溯到晚清時(shí)期。香港科技大學(xué)教授康文林領(lǐng)導(dǎo)建設(shè)的清代《縉紳錄》數(shù)據(jù)庫(kù),包含整個(gè)清代官員信息,其中有一些光緒、宣統(tǒng)年間的數(shù)據(jù),經(jīng)過(guò)計(jì)算能夠與“民國(guó)大學(xué)生信息數(shù)據(jù)庫(kù)”中的學(xué)生家長(zhǎng)信息進(jìn)行匹配,這對(duì)理解民國(guó)大學(xué)生的家庭來(lái)源以及近代教育轉(zhuǎn)型對(duì)家庭的影響都頗有助益。而《縉紳錄》數(shù)據(jù)庫(kù)本身又能夠與CBDB數(shù)據(jù)庫(kù)中的明清人物、進(jìn)士題名錄等材料連接起來(lái),這些官員人物的個(gè)人信息也由此大為豐富起來(lái)。
“外連接”還可以應(yīng)用于主題數(shù)據(jù)庫(kù)與大型電子文獻(xiàn)數(shù)據(jù)庫(kù)的連接。越來(lái)越多的報(bào)紙、期刊乃至各類史料文獻(xiàn)都在被逐步電子化,這類文獻(xiàn)數(shù)據(jù)庫(kù)中蘊(yùn)含有大量的尚未結(jié)構(gòu)化的歷史信息。雖然多數(shù)數(shù)據(jù)庫(kù)只提供開放檢索而不能進(jìn)行后臺(tái)數(shù)據(jù)的直接抓取,但依靠手動(dòng)檢索和比對(duì)考證,還是能夠與一些主題數(shù)據(jù)庫(kù)實(shí)現(xiàn)系統(tǒng)性數(shù)據(jù)連接的!懊駠(guó)大學(xué)生信息數(shù)據(jù)庫(kù)”收錄了1929年前清華大學(xué)全部的庚款留美生。這批留美生是民國(guó)時(shí)期最為成功的留美者,梳理他們的職業(yè)發(fā)展軌跡,對(duì)理解民國(guó)社會(huì)發(fā)展和近代化轉(zhuǎn)型等問(wèn)題意義重大。但即便依靠“內(nèi)連接”,主要是清華校方1920—1937年間多次出版的《同學(xué)錄》等材料,依然只能獲得60%留美生的唯一職業(yè)信息。而通過(guò)與目前已開放的各類近現(xiàn)代報(bào)刊數(shù)據(jù)庫(kù)(如上海圖書館的“晚清、民國(guó)期刊全文數(shù)據(jù)庫(kù)”)、現(xiàn)代出版物數(shù)據(jù)庫(kù)(讀秀、超星等)等,手動(dòng)逐一檢索每位留學(xué)生,能夠連接上大量的職業(yè)信息。到目前,留美生的平均職業(yè)屬已經(jīng)從0.6個(gè)上升到7個(gè)左右,這為研究清華留美生的職業(yè)發(fā)展及其與中國(guó)近代化的關(guān)系等問(wèn)題提供了可能。
數(shù)據(jù)追蹤成為重要研究方法
這些研究實(shí)踐讓我們體會(huì)到,過(guò)去學(xué)界多認(rèn)為利用數(shù)據(jù)庫(kù)進(jìn)行史學(xué)研究,最重要的優(yōu)點(diǎn)是對(duì)史料的大規(guī)模使用,能夠“廣”而“全”地使用史料,F(xiàn)在,隨著越來(lái)越多的數(shù)據(jù)庫(kù)被建設(shè)起來(lái),并向?qū)W界開放,數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的各種“連接”的可能大為增加,“數(shù)據(jù)追蹤”越來(lái)越成為數(shù)據(jù)庫(kù)研究的重要方法。數(shù)據(jù)庫(kù)研究的特長(zhǎng),不僅能夠“廣”而“全”,也越來(lái)越能夠“!鼻摇吧睢。
在進(jìn)行歷史數(shù)據(jù)庫(kù)數(shù)據(jù)連接時(shí)還有一些問(wèn)題需要注意。對(duì)“內(nèi)連接”而言,數(shù)據(jù)連接必須合理和可靠。比如一些人物關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)連接,因?yàn)橥F(xiàn)象的普遍存在,研究者顯然不能僅僅根據(jù)姓名這一單一信息進(jìn)行連接,更何況同一人物也可能存在多個(gè)姓名(字/號(hào))的問(wèn)題。研究者需要在盡可能設(shè)定如年齡、籍貫、畢業(yè)學(xué)校等限制性條件的同時(shí),還要進(jìn)行必要的人工復(fù)檢。
對(duì)“外連接”而言,數(shù)據(jù)庫(kù)的開放至為關(guān)鍵。不僅是前臺(tái)數(shù)據(jù)檢索的開放,更需要后臺(tái)接口的開放,這樣研究者才能植入相應(yīng)的軟件程序進(jìn)行數(shù)據(jù)提取、分析等工作。香港科技大學(xué)李中清、康文林研究團(tuán)隊(duì)的中國(guó)多世代人口數(shù)據(jù)庫(kù)(CMGPD)、哈佛大學(xué)包弼德領(lǐng)導(dǎo)的CBDB數(shù)據(jù)庫(kù)等都實(shí)現(xiàn)了這樣的全面開放,但目前能如此做的歷史數(shù)據(jù)庫(kù)還很少。這是因?yàn)椴粌H數(shù)據(jù)庫(kù)開發(fā)工作的成果認(rèn)定尚缺少明確的學(xué)術(shù)標(biāo)準(zhǔn),數(shù)據(jù)庫(kù)開放后的知識(shí)產(chǎn)權(quán)保護(hù)更是難題。不過(guò),當(dāng)前在自然科學(xué)和生命科學(xué)領(lǐng)域,已經(jīng)建設(shè)起研究數(shù)據(jù)共享的規(guī)范,這對(duì)社會(huì)科學(xué)和人文學(xué)科的影響正在逐漸凸顯,越來(lái)越多的學(xué)術(shù)基金和學(xué)術(shù)期刊已經(jīng)逐漸要求研究者提供原始數(shù)據(jù)。如果說(shuō),最初希望數(shù)據(jù)公開的動(dòng)因是檢驗(yàn)已經(jīng)發(fā)表的分析結(jié)果,現(xiàn)在,學(xué)界則越來(lái)越意識(shí)到共享數(shù)據(jù)還有更重要的目的:一是數(shù)據(jù)庫(kù)開放后,其他研究者可以用來(lái)進(jìn)行完全不同的課題研究。這或許與數(shù)據(jù)庫(kù)建立者的初衷不同,但無(wú)疑提高了數(shù)據(jù)庫(kù)的使用效率;二是與其他數(shù)據(jù)庫(kù)結(jié)合,構(gòu)建覆蓋范圍更大的數(shù)據(jù)庫(kù)。隨著這種認(rèn)識(shí)和數(shù)據(jù)庫(kù)連接的重要性不斷為學(xué)者們所接受,學(xué)術(shù)界應(yīng)盡快開始討論、制定數(shù)據(jù)庫(kù)開放標(biāo)準(zhǔn)和成果保護(hù)準(zhǔn)則。
(作者單位:南京大學(xué)歷史學(xué)院暨數(shù)字史學(xué)研究中心)