作者系國家社科基金重大項(xiàng)目“方志中方言資料的整理、輯錄及數(shù)字化工程”首席專家、西南交通大學(xué)特聘教授;西南交通大學(xué)博士研究生
中華文明歷經(jīng)數(shù)千年的演進(jìn)、積淀,流傳至今的文獻(xiàn)浩如煙!,F(xiàn)代社會(huì)信息技術(shù)飛速發(fā)展,這對文獻(xiàn)的保護(hù)和利用來說,既是機(jī)遇,也是挑戰(zhàn)。“不數(shù)字無人文”時(shí)代的全面到來,意味著數(shù)字化已成為文獻(xiàn)資源保護(hù)、利用、轉(zhuǎn)化、發(fā)展的必要前提。
文獻(xiàn)可檢索化是學(xué)術(shù)大發(fā)展的助推器。從利用角度而言,數(shù)字化的核心是“可檢索”。檢索是現(xiàn)代人文社科研究必不可少的手段和工具,其基本功能是根據(jù)問題的指向,幫助研究者快速、準(zhǔn)確地查找、鑒別和處理相關(guān)文獻(xiàn)材料,建立起知識之間的關(guān)聯(lián),實(shí)現(xiàn)知識的融匯。數(shù)字人文興起之前,人們對文獻(xiàn)進(jìn)行可檢索化處理的成果是索引,也稱“引得”。中國古代的索引是在字書、韻書、類書、書目等基礎(chǔ)上發(fā)展起來的檢索工具,或稱為通檢、備檢、韻編、串珠等。索引可以實(shí)現(xiàn)查檢字、詞、句、篇、文、史、地、事、人、年、制等功能,極大地提高研究效率。
歷史上體例完備、搜羅宏富的索引型工具書的每一次進(jìn)步,都能有力地推動(dòng)學(xué)術(shù)的發(fā)展,并對后世產(chǎn)生深遠(yuǎn)影響。清代阮元主持編纂《經(jīng)籍籑詁》(又作《經(jīng)籍纂詁》),匯集了我國唐以前古書中的訓(xùn)詁資料,分韻編排,對歷代典籍訓(xùn)詁做了索引式的整理——“展一韻而眾字畢備,檢一字而諸訓(xùn)皆存,尋一訓(xùn)而原書可識!惫蚀藭σ粏柺溃褪艿疆(dāng)時(shí)學(xué)界盛贊,并在學(xué)術(shù)研究中加以利用。如郝懿行撰寫《爾雅義疏》就得益于書中提供的豐富材料,他說“適購得《經(jīng)籍纂詁》一書,絕無檢書之勞,而有引書之樂”;20世紀(jì)后半葉,日本諸橋轍次新編《大漢和辭典》,中國臺灣出版《中文大辭典》,我國兩部大型語文辭書《漢語大字典》和《漢語大詞典》,都把《經(jīng)籍籑詁》列為最重要的參考書之一;《故訓(xùn)匯纂》《古音匯纂》則是《經(jīng)籍籑詁》的最新發(fā)展。時(shí)至今日,它仍然是學(xué)者案頭必備的工具書。又如,民國時(shí)期由洪業(yè)主持的哈佛燕京學(xué)社引得編纂處編纂的“漢學(xué)引得叢刊”,借鑒西方科學(xué)的索引技術(shù)和方法,首次大規(guī)模成系統(tǒng)地編纂了64種81冊中國古籍引得工具書,深受當(dāng)時(shí)國內(nèi)外學(xué)界的贊賞,極大地推動(dòng)了民國學(xué)術(shù)的發(fā)展。
大數(shù)據(jù)時(shí)代,各類綜合性、專題性電子數(shù)據(jù)庫如雨后春筍般涌現(xiàn)。相較傳統(tǒng)的紙質(zhì)索引而言,能夠處理海量數(shù)據(jù)的數(shù)字化檢索功能豐富且更高效便捷,開啟了人文學(xué)科全新的研究路徑,引起了研究范式的大變革?梢,文獻(xiàn)可檢索化的意義絕不止于為學(xué)界提供高效便捷的檢索工具,更重要的是倡導(dǎo)了科學(xué)高效的讀書和治學(xué)方法。
“精?薄薄翱蓹z索”是文獻(xiàn)數(shù)字化的兩大支點(diǎn)。文獻(xiàn)的保護(hù)和利用,這里主要指古文獻(xiàn)的保護(hù)和利用,有原生性保護(hù)和再生性保護(hù)兩種方式。原生性保護(hù)更多關(guān)注文獻(xiàn)作為文化承載實(shí)體的物質(zhì)屬性,把文獻(xiàn)當(dāng)作“文物”保護(hù)起來。再生性保護(hù)則有影印、縮微和數(shù)字化三種技術(shù)手段。前兩種手段讓文獻(xiàn)以再造紙本或縮微膠片的形式轉(zhuǎn)印,較好地保存了原貌;但沒有經(jīng)過標(biāo)點(diǎn)、?薄⒆⑨,閱讀不便,無法進(jìn)行檢索,查找效率低下,使用中證據(jù)力有所欠缺。因此,要提升古文獻(xiàn)的利用率,讓它們“活起來”,就必須將其內(nèi)容轉(zhuǎn)化為數(shù)字文本。
文獻(xiàn)數(shù)字化包括紙本資源的電子化,以及在電子化文本基礎(chǔ)上的斷句、標(biāo)點(diǎn)、詞語切分等基礎(chǔ)性加工和深層次的知識提取、聯(lián)結(jié)、擴(kuò)展!熬?薄笔俏墨I(xiàn)數(shù)字化的第一個(gè)支點(diǎn);诳煽考埍镜碾娮踊谋臼俏墨I(xiàn)數(shù)字化的前提和保障,文獻(xiàn)數(shù)字化的實(shí)現(xiàn)過程即是大規(guī)模整理文獻(xiàn)的過程!翱蓹z索”則是文獻(xiàn)數(shù)字化的另一個(gè)支點(diǎn)。擁有可靠的電子化文本后,在海量的數(shù)據(jù)資料面前,如果不能實(shí)現(xiàn)可檢索,則還是不利于讀者對文獻(xiàn)的利用。因此,只有夯實(shí)“精?薄焙汀翱蓹z索”兩個(gè)支點(diǎn),才能走穩(wěn)文獻(xiàn)數(shù)字化的建設(shè)之路。
文獻(xiàn)數(shù)字化,歸根到底是知識生產(chǎn)資源、學(xué)術(shù)研究材料的數(shù)字化。“一時(shí)代之學(xué)術(shù),必有其新材料與新問題”,新材料能出新學(xué)問。從語言研究角度說,激活舊材料,挖掘新材料是語言研究持久不懈的重要工作。新材料有兩層含義:狹義的新材料指地下出土的材料,如清末民初的甲骨文、簡帛及敦煌文獻(xiàn);廣義的新材料則指前人未曾使用過的,或在研究中沒有系統(tǒng)搜集、整理的,學(xué)界不曾注意的材料,如域外文獻(xiàn)、大內(nèi)檔案。從方言研究角度看,20世紀(jì)的歌謠收集、方言調(diào)查報(bào)告、少數(shù)民族語言調(diào)查,近年的方志方言整理,其實(shí)質(zhì)上也是新材料,但這些材料的“新”不深究難以覺察。中國地方志是“我國有史以來最大的社會(huì)科學(xué)成果群”,其中蘊(yùn)含了豐富的方言材料,他們是中國語言學(xué)研究的又一富礦,是具有寶貴價(jià)值的新材料。其中不僅有漢語方言,還有少數(shù)民族語、外來語,語音、詞匯、語法、俗語俱全。但分布零散,搜檢不易,前人使用不多。20世紀(jì)中葉,日本學(xué)者波多野太郎編纂《中國方志所錄方言匯編》(9編),收集、影印了266種中國舊志中的方言資料;21世紀(jì)初,日本學(xué)者太田齋、加納巧《新編中國地方志所錄方言志目錄》集31個(gè)省市含有方言資料的新志,編成目錄。2021年,出現(xiàn)了兩部舊志方言資料整理的集大成之作:華學(xué)誠主編,曹小云、曹嫄《歷代方志方言文獻(xiàn)集成》(11冊)整理點(diǎn)校了966種舊志方言文獻(xiàn);李藍(lán)《中國方志中語言資料集成》(42冊)搜集影印了742種含有語言資料的舊志內(nèi)容。這是兩部舊志方言資料整理的力作,得到學(xué)界好評。國家社科基金重大項(xiàng)目“方志中方言資料的整理、輯錄及數(shù)字化工程”搜集整理新、舊方志中的方言資料,分省編成《中國方志方言資料匯纂》,印刷紙本296冊;建成了可供檢索利用的“中國方志方言詞匯數(shù)據(jù)庫”。該庫從10余萬種方志中,系統(tǒng)地整理出3677種中國新、舊方志中的方言詞,現(xiàn)已入庫方言詞130萬余條,總字?jǐn)?shù)約5000萬字。該數(shù)據(jù)庫屬于全息數(shù)據(jù)庫,可一鍵查詢到古今方志方言詞匯的相應(yīng)信息,這對未來的漢語方言研究或?qū)⒂兄匾獏⒖純r(jià)值。
科學(xué)設(shè)計(jì)檢索字段是提高檢索效率的關(guān)鍵。文獻(xiàn)數(shù)字化要兼顧到原貌保護(hù)、精確校勘、電子化提取、方便檢索等多方面要求。因此,需要根據(jù)不同的檢索目的,匹配不同專業(yè)的特征項(xiàng),做好檢索的頂層設(shè)計(jì),從而提高檢索效率和查準(zhǔn)率。在文獻(xiàn)數(shù)字化的建設(shè)過程中,“精?薄钡募堎|(zhì)文本與電子化文本是實(shí)現(xiàn)“可檢索”功能的前提,而提高檢索效率的關(guān)鍵則是科學(xué)的檢索字段設(shè)計(jì)。
大數(shù)據(jù)時(shí)代的文獻(xiàn)數(shù)字化除提供字符串匹配的基礎(chǔ)檢索功能外,還應(yīng)對內(nèi)容進(jìn)行深度標(biāo)引、知識發(fā)掘和文獻(xiàn)信息關(guān)聯(lián)。以“中國方志方言詞匯數(shù)據(jù)庫”為例,其檢索字段設(shè)計(jì)包括:詞形、注音、釋義、文例、詞類、語類、通行地域、方志纂修時(shí)間、方志纂修者、方志名稱、方言所在篇(卷)。通過數(shù)據(jù)的結(jié)構(gòu)化處理,可進(jìn)行批量查詢、計(jì)量統(tǒng)計(jì);可實(shí)現(xiàn)全文檢索,也可進(jìn)行方言分時(shí)、分地、分詞類、分語類等專門性檢索。方言分區(qū)、分類是方言研究的基礎(chǔ)工作,又是方言研究的歸宿。學(xué)界目前多以語音為方言分區(qū)的條件,“中國方志方言詞匯數(shù)據(jù)庫”可以起到重要的輔助和驗(yàn)證作用。如可從數(shù)據(jù)庫中方便地提取同一方言詞在相鄰的區(qū)、片、小片、點(diǎn)的復(fù)現(xiàn)率、同一方言詞在不同方言中的共現(xiàn)率等數(shù)據(jù)。例如,晉語“好面”指白面、精細(xì)面,在山西太原、鄉(xiāng)寧等地47種方志中出現(xiàn)過;又如方言詞“蔫”指物不新鮮,在河北雄縣、青縣,江蘇吳縣,浙江蕭山、鄞縣,上海,福建,廣東番禺,重慶云陽、長壽,四川蓬溪、簡陽,貴州遵義、平越等地36種方志中出現(xiàn)過。這樣的數(shù)據(jù),無疑將有益于我們用來研究方言分區(qū)、方言溯源、方言擴(kuò)散、方言比較、形音義、語言接觸、移民現(xiàn)象等多方面的問題;谠搸鞂h語方言材料進(jìn)行深度而高效的分析,使?jié)h語方言研究除方言調(diào)查報(bào)告、方言著作、方言研究論文、方言地圖、方言詞典外,又多了一個(gè)可靠好用的檢索平臺,有助于方言研究進(jìn)入更宏觀的視野,提高研究結(jié)論的精準(zhǔn)性、穩(wěn)定性及可驗(yàn)證性,促生新的研究理念、方法與范式。
依托于現(xiàn)代信息技術(shù)發(fā)展起來的文獻(xiàn)數(shù)字化檢索方式,是真正對包括古籍在內(nèi)的文獻(xiàn)實(shí)現(xiàn)永續(xù)性保護(hù)和利用的好辦法,必將大大推動(dòng)人文社會(huì)科學(xué)領(lǐng)域的發(fā)展,推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展。