歷史已經(jīng)證明,中華民族有著高度文明自覺的優(yōu)良品格。所謂“高度文明自覺”,不僅指中華民族對(duì)自己創(chuàng)造的文明具有高度自信,而且指從古至今中華民族始終采用各種方式力求將自己的文明繼承下來,并發(fā)揚(yáng)光大、傳承下去。典籍是文明傳承的主要載體,皓首窮經(jīng)、孜孜不倦整理古籍的人士前赴后繼,代有人出。在此進(jìn)程中,中華古籍經(jīng)歷寫本、刻本、近現(xiàn)代印刷本等不同時(shí)期,現(xiàn)已踏入數(shù)字化的大門。
古籍整理尚處初級(jí)階段
現(xiàn)在遇到的問題是,人類社會(huì)已進(jìn)入數(shù)字化時(shí)代,古籍整理也開始利用數(shù)字技術(shù),但總體看仍處于數(shù)字化初級(jí)階段,沒有真正擺脫傳統(tǒng)古籍整理模式束縛,沒有真正發(fā)揮數(shù)字技術(shù)優(yōu)勢(shì)以開創(chuàng)古籍整理新局面。
所謂古籍整理處于“數(shù)字化初級(jí)階段”,主要體現(xiàn)在目前推出的古籍整理數(shù)字化成果,大多為紙本古籍整理成果的介質(zhì)轉(zhuǎn)換,亦即將古籍由紙介質(zhì)直接轉(zhuǎn)換為數(shù)字化介質(zhì)。舉例而言,利用近現(xiàn)代印刷技術(shù)推出的古籍有排印本、影印本兩種形態(tài)。與此相應(yīng),初級(jí)階段的數(shù)字化古籍,也出現(xiàn)用文字錄入方式形成的電子文本及用圖像掃描方式形成的掃描本。四種文本兩兩對(duì)應(yīng),只是前者為紙介質(zhì),表現(xiàn)為一本一本的實(shí)體書;后者為數(shù)字介質(zhì),可以利用網(wǎng)絡(luò)傳播,在顯示器上閱覽。但無論是傳統(tǒng)古籍,還是數(shù)字化古籍,目前大抵屬于平面展現(xiàn)。當(dāng)然,初級(jí)階段的數(shù)字化古籍已經(jīng)與紙本古籍不可同日而語。比如,無論是排印本,還是影印本,不少數(shù)字化古籍都可以實(shí)現(xiàn)全文檢索。有些數(shù)字化古籍采集檢索點(diǎn),建成關(guān)聯(lián)數(shù)據(jù)庫,初步建立起相關(guān)的知識(shí)網(wǎng);有些數(shù)字化古籍采用圖像技術(shù),營建虛擬場(chǎng)景等等。特別應(yīng)該指出的是,利用數(shù)字技術(shù)建立的古籍目錄數(shù)據(jù)庫,其強(qiáng)大的檢索功能使得紙本目錄索引類著作瞠目難及。但是,由于目前古籍整理界還沒有真正擺脫傳統(tǒng)古籍整理模式的束縛,從而使上述數(shù)字化成果的質(zhì)量也難以突破傳統(tǒng)古籍整理的水平,限制了數(shù)字化古籍各種功能的充分發(fā)揮。
所謂“傳統(tǒng)古籍整理模式”,簡(jiǎn)單講就是東漢劉向總結(jié)的“校讎”方式。所謂“校”,指某人對(duì)某一文本進(jìn)行閱讀,依據(jù)上下文理,校正錯(cuò)誤。所謂“讎”,則由兩人合作,一人執(zhí)一本宣讀,一人對(duì)另一本逐字核對(duì)、校改。隨著時(shí)代的發(fā)展,后代的古籍整理逐漸演變?yōu)橛赡澄徽碚咭蝗诵?duì)兩本或數(shù)本,最終定稿。一個(gè)人,無論學(xué)術(shù)水平多么高超,能力總有局限;無論工作態(tài)度多么精審,人力終有窮盡。所以,采用這種方式完成的成果,難免存在種種不足,以致自古流傳這樣的感慨:“校書如掃落葉,旋掃旋生。”任何一位古籍整理者,都不敢說自己的工作盡善盡美。可以看到這樣的景象:某類文獻(xiàn)、某種典籍,不少整理者反復(fù)進(jìn)行整理。如敦煌變文、敦煌本《壇經(jīng)》的整理校注本,據(jù)我所知,至少都在10種以上,多的甚至超過20種。雖則如此,至今尚未出現(xiàn)一個(gè)學(xué)界公認(rèn)的“善本”。大量勞動(dòng)的付出,其間有多少有效勞動(dòng)或無效勞動(dòng),實(shí)難統(tǒng)計(jì)。
問題還在于,傳統(tǒng)古籍整理雖然為讀者提供一個(gè)整理本、一份校勘記,讀者可以對(duì)照?庇涢喿x整理本,但由于整理者沒有提供他所依據(jù)的原始資料,因此,如?惫ぷ鞅旧碛惺杪,即整理本的錯(cuò)誤沒有反映在?庇浿,或?庇洸荒芊从车妆、校本的真實(shí)情況,讀者就頗為困惑了。例如,國內(nèi)某權(quán)威出版社出版的二十四史,向來被視為古籍整理的翹楚,但至今依然有人不斷發(fā)現(xiàn)問題,提出商榷,原因就在于此。學(xué)術(shù)研究要依靠文獻(xiàn)資料,如果文獻(xiàn)本身的準(zhǔn)確性無法保證,那學(xué)術(shù)研究又如何保證水平、不出錯(cuò)誤?
數(shù)字化將大大提升?毙
利用數(shù)字化技術(shù),開創(chuàng)古籍整理新局面的基本原則:一是起于最底層。古籍整理要從最基礎(chǔ)原始資料的圖形文字、書寫符號(hào)的切割開始。亦即將所有用于校勘的古籍原本上的全部文字與符號(hào)統(tǒng)統(tǒng)切割下來,存入數(shù)據(jù)庫。二是信息全覆蓋。信息采集要覆蓋原本上的全部原始資料,亦即保留原本中一切可供研究的信息。三是過程可追溯。利用數(shù)字化技術(shù),通過人機(jī)互動(dòng)的切字、認(rèn)字、定字、?、標(biāo)點(diǎn)等工作環(huán)節(jié)最終完成古籍整理。整個(gè)工作流程的每一步都有記錄,都可以追溯與檢查,包括每一環(huán)節(jié)所用資料、所做工作、所得結(jié)果。四是功能可擴(kuò)展。界面友好,可與讀者互動(dòng),并可隨時(shí)根據(jù)新的情況擴(kuò)展功能。
利用數(shù)字化技術(shù),開創(chuàng)古籍整理新局面的基本思路:首先,從古籍原本最基礎(chǔ)的文字與書寫符號(hào)的切割、辨認(rèn)開始,即把古籍原本上的每一個(gè)文字、每一個(gè)符號(hào)都切割下來,并將它們?nèi)哭D(zhuǎn)換成計(jì)算機(jī)可識(shí)別的具有計(jì)算機(jī)內(nèi)碼的文字與符號(hào),由此形成基礎(chǔ)工作文本與基礎(chǔ)字庫;A(chǔ)文本為一個(gè)與該古籍原本行文完全一致的數(shù)字化文本,以供?敝谩T谶@里,傳統(tǒng)的底本、校本概念將被顛覆,所有原始文本在新的古籍整理工作中將處于平等地位;A(chǔ)字庫存儲(chǔ)該古籍原本的所有文字與符號(hào),并保留其原始圖像形態(tài),既供追溯檢查所用,又可作為文字研究者的研究資料。其次,系統(tǒng)排比基礎(chǔ)工作文本,提示整理者辨析異本。古籍在流傳過程中時(shí)有異本產(chǎn)生,異本可以參校,不宜混同。故正式校勘之前,必先區(qū)別異本。再次,?迸c標(biāo)點(diǎn)。有經(jīng)驗(yàn)的古籍整理者都知道,一般來說,用于對(duì)校的兩個(gè)文本的差異不會(huì)超過10%。但校勘者必須耐住性子,一個(gè)字一個(gè)字去校,唯恐有所疏漏。因此,?敝懈冻龅膭趧(dòng),幾乎有90%以上屬于無用功。而由系統(tǒng)自動(dòng)比對(duì)不同文本,如果對(duì)應(yīng)的文字相同,系統(tǒng)自動(dòng)忽略,僅將不同的文字用色標(biāo)顯示,提示研究者進(jìn)行勘校。這樣,研究者固然還需通讀全文,但就?杯h(huán)節(jié)而言,工作量可以減輕90%左右。不僅如此,系統(tǒng)針對(duì)不同情況,設(shè)計(jì)了?庇浀囊(guī)范表述格式并按要求自動(dòng)生成校勘記。研究者進(jìn)而可利用該系統(tǒng)同時(shí)對(duì)文本進(jìn)行分段、標(biāo)點(diǎn)。
由此完成的數(shù)字化整理本,將充分利用數(shù)字化技術(shù)多層次、多功能的縱深優(yōu)勢(shì),將被整理古籍的文字、文物、文獻(xiàn)、研究史等各種信息鏈接為一個(gè)整體,予以立體化呈現(xiàn)。該成果將具有開放性,為讀者提供互動(dòng)平臺(tái)。讀者可以在該平臺(tái)追溯、檢查整理者的全部工作及所用各校本文字、符號(hào)的原始圖版,評(píng)點(diǎn)整理者的工作,提出修訂意見,使整理本得以不斷修訂錯(cuò)誤,逐漸升級(jí),最終臻于至善。這種數(shù)字化互動(dòng)模式將徹底改變古籍整理中大量出現(xiàn)重復(fù)勞動(dòng)的現(xiàn)狀,使每個(gè)整理者的工作、每位讀者的修訂都成為對(duì)該被整理文獻(xiàn)的有效學(xué)術(shù)積累。這種整理本也將為知識(shí)點(diǎn)的采集、知識(shí)網(wǎng)的構(gòu)建等各種后續(xù)工作賦予更加堅(jiān)實(shí)的基礎(chǔ)。
(作者為國家社科基金重大項(xiàng)目“敦煌遺書數(shù)據(jù)庫建設(shè)”首席專家、上海師范大學(xué)教授)