舊版網(wǎng)站入口

站內(nèi)搜索

韓春平:敦煌遺書數(shù)字化演進(jìn)史

2017年06月29日08:54來源:中國社會(huì)科學(xué)報(bào)國家社科基金?

作者系國家社科基金重大項(xiàng)目“敦煌遺書數(shù)據(jù)庫建設(shè)”子課題負(fù)責(zé)人、蘭州大學(xué)圖書館研究館員

敦煌遺書又稱敦煌文獻(xiàn)、敦煌文書等,是異常珍貴的歷史文化遺產(chǎn)。1900年發(fā)現(xiàn)于甘肅敦煌,隨后流散于海內(nèi)外多處地方。在很長一段時(shí)間里,學(xué)界研究遺書主要依賴經(jīng)過整理刊布的再生遺書資料,但這些資料與遺書原件一樣內(nèi)容龐雜,卷帙浩繁,查閱不易,因此資料需求一直得不到有效滿足。20世紀(jì)80年代初,法國學(xué)者開始試探利用計(jì)算機(jī)處理遺書信息,遺書整理研究工作開啟了新的模式,進(jìn)入了高效的數(shù)字化時(shí)代。自那時(shí)起,遺書數(shù)字化已走過了30余年歷程,其間涌現(xiàn)出許多數(shù)據(jù)庫產(chǎn)品和理論成果。各數(shù)據(jù)庫按其數(shù)據(jù)類型及操作功能,可籠統(tǒng)分為單一型、復(fù)合型和智能型三種。盡管三種數(shù)據(jù)庫中各單項(xiàng)成果的出現(xiàn)并非嚴(yán)格遵循時(shí)間次序,但每種類型的形成都與遺書數(shù)字化的演進(jìn)步伐相對應(yīng),前后連綴可以從一個(gè)側(cè)面呈現(xiàn)遺書數(shù)字化的演進(jìn)歷史。

單一型數(shù)據(jù)庫

單一型數(shù)據(jù)庫屬于探索性成果,出現(xiàn)早,歷時(shí)長。基本特點(diǎn)是數(shù)據(jù)庫數(shù)量較多,但各庫通常只有一種數(shù)據(jù)類型,或?yàn)槟夸泿欤驗(yàn)橛跋駧,或(yàn)殇浳膸,或(yàn)槠渌≈黝}資料庫。各數(shù)據(jù)庫規(guī)模較小,結(jié)構(gòu)簡單,功能較弱。在服務(wù)方面,多為僅供私人或機(jī)構(gòu)內(nèi)部使用的單機(jī)版,較少提供共享。

1988年,臺(tái)灣地區(qū)相關(guān)研究機(jī)構(gòu)開始對所藏遺書進(jìn)行數(shù)字化處理,并將數(shù)據(jù)存入CD庫。這大概是敦煌遺書最早的數(shù)字影像。不過由于該研究院藏品數(shù)量非常有限,相關(guān)成果又未向外公布,其作用微乎其微。

敦煌研究院于1995—1999年實(shí)施的院級課題“敦煌遺書數(shù)據(jù)庫”,是單一型數(shù)據(jù)庫中的翹楚。該庫實(shí)為《敦煌遺書總目索引新編》一書的電子版。初期僅著錄原北京圖書館及英、法兩國所藏約2萬號(hào)遺書的目錄,后期又補(bǔ)錄了俄、日兩國所藏及海內(nèi)外散藏遺書的目錄。相關(guān)字段包括藏地、編號(hào)(卷號(hào))、題名、分類、題記等多項(xiàng)。程序中起初預(yù)設(shè)了影像選項(xiàng),后來并未真正實(shí)現(xiàn)。

在眾多單一型數(shù)據(jù)庫中,存在一些基于少數(shù)遺書的成果,如國家圖書館創(chuàng)建的“中國國內(nèi)散藏敦煌文獻(xiàn)聯(lián)合目錄數(shù)據(jù)庫”,臺(tái)灣成功大學(xué)基于《王梵志詩》《老子化胡經(jīng)》等個(gè)別遺書全文錄文創(chuàng)建的數(shù)據(jù)庫等。此外還有一些基于小主題的成果,如上海師范大學(xué)方廣锠教授個(gè)人創(chuàng)建的“諸經(jīng)起訖”、“英國敦煌遺書人名索引”,以及蘭州大學(xué)笹川良一青年教師基金項(xiàng)目“敦煌文獻(xiàn)中的佛教人物數(shù)據(jù)庫系統(tǒng)”等。在以上這類數(shù)據(jù)庫中,不乏有Excel表格形式。

復(fù)合型數(shù)據(jù)庫

復(fù)合型數(shù)據(jù)庫早在20世紀(jì)90年代即已出現(xiàn)。其基本特點(diǎn)是數(shù)據(jù)庫數(shù)量相對較少,但各庫數(shù)據(jù)類型則呈現(xiàn)多樣化,規(guī)模普遍較大,結(jié)構(gòu)均較復(fù)雜,功能大幅提升。在服務(wù)方面,單機(jī)版已基本過時(shí),各數(shù)據(jù)庫建設(shè)者至少在理念上都主張通過網(wǎng)絡(luò)渠道對外共享。不過實(shí)際情況并不樂觀,商業(yè)成果固然只提供有償服務(wù),但許多公益成果要么只有死鏈,要么多有限制,真正供免費(fèi)共享者寥寥無幾。

最早的復(fù)合型數(shù)據(jù)庫,要數(shù)總部設(shè)在英國,由中、英、法、俄、日等多國合作共建的“國際敦煌項(xiàng)目”(IDP)專屬數(shù)據(jù)庫。該庫早在1994年即開始籌建,后于1998年在互聯(lián)網(wǎng)免費(fèi)發(fā)布,內(nèi)容包括多國藏品的彩色圖版影像和目錄信息,目前數(shù)據(jù)仍在持續(xù)上傳。不過IDP數(shù)據(jù)庫并非敦煌遺書專題庫,庫中還充斥著中亞地區(qū)多種古代歷史遺存的數(shù)字資源。受冗余數(shù)據(jù)干擾,敦煌遺書相關(guān)資料反而難于查找。除圖版質(zhì)量普遍較高外,該數(shù)據(jù)庫迄未提供詳細(xì)目錄,現(xiàn)有目錄過于簡略,且不支持漢文檢索,極大降低了利用效率。

蘭州大學(xué)曾于1998年承擔(dān)過CALIS項(xiàng)目“敦煌學(xué)數(shù)據(jù)庫”,后于2001年又通過科技部項(xiàng)目對其進(jìn)行升級,推出綜合型敦煌學(xué)資料數(shù)據(jù)庫“敦煌學(xué)數(shù)字圖書館”,其中遺書子庫內(nèi)容最為豐富,包括遺書的目錄和影像兩部分,已入庫數(shù)據(jù)涉及原北京圖書館、英國、法國及甘肅藏品,數(shù)據(jù)量數(shù)以萬計(jì),在當(dāng)時(shí)堪稱大庫。但其缺陷是遺書數(shù)量仍較有限,影像均為黑白圖版,且通常因故無法打開。

2016年8月,由陜西師范大學(xué)創(chuàng)建、作為“漢籍?dāng)?shù)字圖書館”2.0版專庫之一的“敦煌文獻(xiàn)庫”(又稱“敦煌文獻(xiàn)數(shù)字圖書館”)正式上線,內(nèi)含目錄庫和圖版庫兩個(gè)子庫,已入庫遺書7萬余號(hào),圖版51萬多個(gè)。庫中圖版均有小圖、中圖和高清圖三種,可供用戶按需選用。該庫的優(yōu)點(diǎn)是內(nèi)容非常豐富,部分彩色圖版的錄入可充分展現(xiàn)遺書原貌,為學(xué)者提供詳盡的文獻(xiàn)信息;缺點(diǎn)是目錄信息過于簡略,且作為當(dāng)前的新建數(shù)據(jù)庫,因缺乏錄文而無法進(jìn)行全文檢索。

智能型數(shù)據(jù)庫

智能型數(shù)據(jù)庫其實(shí)也屬于復(fù)合型范疇,只是它并非普通的復(fù)合型數(shù)據(jù)庫,而是升級版,或者也不妨稱之為復(fù)合型2.0版;咎攸c(diǎn)是成果數(shù)量進(jìn)一步減少,但各類型數(shù)據(jù)則趨于齊全,規(guī)模更加龐大,結(jié)構(gòu)更為復(fù)雜,功能整體增強(qiáng),且注重智能技術(shù)的采用。智能型數(shù)據(jù)庫通常又稱為知識(shí)庫,它是人工智能和數(shù)據(jù)庫相結(jié)合的產(chǎn)物。目前還沒有成型的遺書知識(shí)庫,不過一些在建數(shù)據(jù)庫項(xiàng)目正朝著智能庫方向進(jìn)行摸索,其服務(wù)模式也在探求之中。

2003年,在日本京都舉行的敦煌學(xué)國際聯(lián)絡(luò)委員會(huì)成立會(huì)上,與會(huì)代表就曾動(dòng)議創(chuàng)建“敦煌學(xué)知識(shí)庫”。2005年,在中國上海召開的敦煌學(xué)知識(shí)庫國際學(xué)術(shù)研討會(huì)上,內(nèi)含遺書資源的“敦煌學(xué)知識(shí)庫”受到熱議,不過其熱度后來趨于消歇。雖然日本學(xué)者高田時(shí)雄的個(gè)人網(wǎng)站一直有個(gè)“敦煌學(xué)知識(shí)庫”,但除一些敦煌學(xué)零碎知識(shí)及學(xué)術(shù)資訊外,沒有任何符合“知識(shí)庫”意涵的成果。

可喜的是,相關(guān)文獻(xiàn)數(shù)字化工作近年在國內(nèi)得到了相應(yīng)開拓,并已取得初步成效,已經(jīng)推出的代表性成果主要是愛如生的“敦煌文獻(xiàn)庫”。該庫是具備初步智能操作功能的全文檢索版大型數(shù)據(jù)庫,共分5集,初集已于2012年出版,二集預(yù)定2017年出版。初集庫不僅輸入了大量遺書影像,而且對遺書文字內(nèi)容進(jìn)行了全文迻錄——這也是愛如生對遺書數(shù)字化工作的最大貢獻(xiàn)。除包括全文檢索在內(nèi)的強(qiáng)大檢索功能外,該庫還開發(fā)了標(biāo)注、書簽等9項(xiàng)研讀功能,并配套了多種其他平臺(tái)功能。其缺陷是現(xiàn)有影像均為黑白圖版,且部分圖版模糊不清。

2012年,“敦煌遺書數(shù)據(jù)庫建設(shè)”首次被列入國家社科基金重大招標(biāo)項(xiàng)目選題,敦煌研究院和上海師范大學(xué)一同中標(biāo)。敦煌研究院一方項(xiàng)目組聯(lián)合浙江大學(xué)和蘭州大學(xué),形成了強(qiáng)有力的團(tuán)隊(duì)。所建新數(shù)據(jù)庫的主要亮點(diǎn),是對相關(guān)各類型數(shù)據(jù)進(jìn)行集成和優(yōu)化,成果完成后,將不僅提供高質(zhì)量的遺書全文錄文,實(shí)現(xiàn)錄文與高清圖版的對照閱讀,而且提供迄今最為詳備的目錄數(shù)據(jù),并配套大量遺書研究文獻(xiàn)數(shù)據(jù),同時(shí)新增藏文遺書的影像和錄文。上海師范大學(xué)一方項(xiàng)目的數(shù)據(jù)庫已完成第一期工程,并設(shè)想通過進(jìn)一步完善,從文物、文獻(xiàn)、文字三個(gè)層面采集所有遺書的各種知識(shí)點(diǎn),通過不同角度加以展示,同時(shí)顯示其內(nèi)在網(wǎng)狀結(jié)構(gòu),由此打造高端學(xué)術(shù)平臺(tái)。

敦煌遺書數(shù)字化是一個(gè)不斷演進(jìn)的過程,通過海內(nèi)外各界的努力,大量遺書已經(jīng)被數(shù)字化,歷來各數(shù)據(jù)庫總數(shù)遠(yuǎn)不止以上所列。既有成果為學(xué)界整理和研究遺書提供了方便,也為尋常百姓了解和欣賞遺書提供了便利。同時(shí)數(shù)字化有利于更好地解決遺書的保護(hù)與利用矛盾,既使遺書信息通過數(shù)字資源得到充分利用,又使遺書原件免遭過度接觸,從而得到更好的保護(hù)。此外,長期的數(shù)字化實(shí)踐也為后續(xù)工作留下了不少有益啟示,諸如資源建設(shè)者日趨專業(yè)化,數(shù)據(jù)庫內(nèi)容和功能日趨集成化,資源利用日趨共享化,等等。不過,敦煌遺書數(shù)字化工作仍然在路上,現(xiàn)有成果并非盡善盡美,知識(shí)庫目標(biāo)依舊道阻且長,公益資源與商業(yè)資源的博弈將在所難免,各種新舊問題都亟待解決。

(責(zé)編:李葉、程宏毅)
淮安市| 富川| 永修县| 伊宁县| 平武县| 武山县| 白河县| 虞城县| 同心县| 巨野县| 东乡| 香港 | 札达县| 大方县| 泾源县| 卓尼县| 宜昌市| 阿坝| 深州市| 柘荣县| 渭南市| 青铜峡市| 微山县| 贵港市| 师宗县| 玉溪市| 台前县| 宁安市| 瑞丽市| 樟树市| 洪洞县| 诸暨市| 涟源市| 广东省| 英德市| 鹤庆县| 惠东县| 新源县| 嫩江县| 万盛区|