舊版網(wǎng)站入口

站內(nèi)搜索

20世紀(jì)中國(guó)人物傳記資源整理與數(shù)據(jù)庫(kù)建設(shè)研究

2016年06月01日13:40

關(guān)于“全文數(shù)據(jù)庫(kù)”等六個(gè)子項(xiàng)目的自評(píng)報(bào)告

以姜義華教授為首席專家的“20世紀(jì)中國(guó)人物傳記資源整理與數(shù)據(jù)庫(kù)建設(shè)研究”的國(guó)家社科基金重大項(xiàng)目,在向全國(guó)哲學(xué)社會(huì)科學(xué)規(guī)劃辦提交結(jié)項(xiàng)報(bào)告前,為檢驗(yàn)歷時(shí)五年來項(xiàng)目的最終研究成果,根據(jù)姜義華教授的意見,項(xiàng)目工作組分別于2015年10月17日和12月13日,特邀請(qǐng)復(fù)旦大學(xué)和校外的相關(guān)專家學(xué)者,在復(fù)旦大學(xué)光華樓歷史系2001會(huì)議室,對(duì)所承擔(dān)的數(shù)個(gè)子項(xiàng)目進(jìn)行了自我評(píng)估。有的專家因出差在外,不能到現(xiàn)場(chǎng)發(fā)表自己的意見,即根據(jù)項(xiàng)目工作組發(fā)送給他們的電子版《評(píng)估報(bào)告書》,將認(rèn)真撰寫的書面《簽定意見》簽名后,打印掃描發(fā)送給項(xiàng)目工作組。

現(xiàn)將兩次評(píng)估會(huì)的情況摘要報(bào)告如下:

一、對(duì)最終研究成果《數(shù)據(jù)庫(kù)建設(shè)》的評(píng)估意見

評(píng)估會(huì)由本項(xiàng)目工作組負(fù)責(zé)人傅德華教授主持。姜義華教授首先代表本項(xiàng)目工作組向各位專家放棄周六(10月17日)休息時(shí)間,出席此次評(píng)估會(huì)表示衷心的謝意。

姜義華教授在致辭中說:“今天把大家請(qǐng)過來,非常感謝!現(xiàn)在大數(shù)據(jù)變得非常流行,運(yùn)用越來越多,發(fā)展非常快,越下去越快。今天把復(fù)旦研究大數(shù)據(jù)的專家都請(qǐng)過來,雖然是社會(huì)科學(xué),但人文科學(xué)方面的也放在里面。中國(guó)現(xiàn)在手機(jī)用戶6.5億,在全世界非?捎^,因?yàn)橄乱徊降陌l(fā)展,像第四次工業(yè)革命一樣,實(shí)際上就是大數(shù)據(jù)互聯(lián)網(wǎng)時(shí)代,它究竟帶來什么,怎么發(fā)展數(shù)字化,大量東西都還屬于未知數(shù)。但中國(guó)有這么龐大的一個(gè)數(shù)據(jù)庫(kù),世界每天都在運(yùn)用,每天都在接觸,將來新的一場(chǎng)世界革命、工業(yè)革命,我們這里只是做了很少一點(diǎn)點(diǎn),人物傳記雖然做了幾萬人,在整個(gè)中國(guó)近現(xiàn)代史上是一個(gè)很小很小的數(shù)字。數(shù)據(jù)庫(kù)、大數(shù)據(jù)一來,普通老百姓會(huì)越來越多地進(jìn)入到我們的研究范圍里面,因?yàn)閿?shù)據(jù)庫(kù)處理這些問題就非常方便。我們現(xiàn)在選的近六萬人,不可能每一個(gè)人都很完整,比如我要查周予同,“文革”中間批判他的文章那么多,現(xiàn)在去查我們基本上沒有收集起來,所以都只能做一部分!段膮R報(bào)》也整個(gè)做成光盤,《新民晚報(bào)》也做成光盤,進(jìn)展非常非常之快,我們現(xiàn)在只是做一個(gè)嘗試和探索,因?yàn)榛ǖ牧獗容^大,做的除了國(guó)內(nèi)之外,還在港臺(tái)也收集到一批,還有日本、俄國(guó)、美國(guó)收集了一批,后面還要開專家評(píng)估會(huì)。今天第一次做專家評(píng)估,因?yàn)榛四敲炊嗔獍褦?shù)據(jù)庫(kù)建設(shè)起來。還是謝謝大家,把各位請(qǐng)過來,希望對(duì)我們的工作實(shí)事求是地給與批評(píng),希望更多的人來運(yùn)用這個(gè)數(shù)據(jù)庫(kù)!

本子項(xiàng)目負(fù)責(zé)人李旻講師報(bào)告了最終研究成果《數(shù)據(jù)庫(kù)建設(shè)》的工作情況,F(xiàn)將《全文數(shù)據(jù)庫(kù)簡(jiǎn)介》摘要如下:

本項(xiàng)目根據(jù)2010年申報(bào)時(shí)向全國(guó)哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室承諾的數(shù)據(jù)庫(kù)應(yīng)用需求,對(duì)原有復(fù)旦大學(xué)歷史系資料室編纂、本項(xiàng)目第一子項(xiàng)目負(fù)責(zé)人傅德華教授主編的、上海辭書出版社2010年4月出版的《20世紀(jì)中國(guó)人物傳記資料索引》(以下簡(jiǎn)稱《世紀(jì)人物索引》)收錄的5.8萬人,傳記資料20萬篇(本)的元數(shù)據(jù)內(nèi)容進(jìn)行了擴(kuò)充和規(guī)范化,改造為適應(yīng)供中外學(xué)術(shù)界搜檢篇名目錄、作者、出版單位及出版時(shí)間,以及1949年前發(fā)表和出版的部分人物傳記資料全文的數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)設(shè)計(jì)。

本數(shù)據(jù)庫(kù)不僅從內(nèi)容上覆蓋了原《世紀(jì)人物索引》所包含的專著、報(bào)紙、期刊、論文集等,條目上則涵蓋了《世紀(jì)人物索引》中的全部信息,更重要的還將包含本項(xiàng)目新增的日本、俄羅斯、美國(guó)、港澳臺(tái)的四個(gè)《20世紀(jì)中國(guó)人物傳記資料的整理分析與研究》調(diào)研報(bào)告所搜集到,涉及2000個(gè)人物,約1.2萬篇海外(包含港澳臺(tái))三種語言的《20世紀(jì)中國(guó)人物傳記文獻(xiàn)資料目錄》。

本項(xiàng)目利用《世紀(jì)人物索引》一書作為20世紀(jì)中國(guó)人物傳記的基本搜集范圍,以《世紀(jì)人物索引》為基礎(chǔ)增加全文內(nèi)容,對(duì)《世紀(jì)人物索引》進(jìn)行了數(shù)字化轉(zhuǎn)換及導(dǎo)入,在此基礎(chǔ)上根據(jù)項(xiàng)目建設(shè)的進(jìn)展,有針對(duì)性地開展了數(shù)字化文獻(xiàn)的搜集整理工作。在設(shè)計(jì)中,針對(duì)原《世紀(jì)人物索引》對(duì)傳主信息的不足,在元數(shù)據(jù)中預(yù)留了相應(yīng)結(jié)構(gòu),可在今后的數(shù)據(jù)庫(kù)使用及改造過程中進(jìn)行適當(dāng)擴(kuò)充。

本項(xiàng)目充分利用了現(xiàn)有國(guó)內(nèi)已經(jīng)建成的各種數(shù)字化資料庫(kù)及電子圖書館,通過數(shù)據(jù)圖像自動(dòng)采集等方式,獲取了大量的圖像資料內(nèi)容。1949年后的大陸各類出版物,已經(jīng)通過這一搜集工作打下了非常好的基礎(chǔ),在進(jìn)一步持續(xù)建設(shè)中,可較快地充實(shí)數(shù)據(jù)庫(kù)中的全文內(nèi)容。

現(xiàn)有的國(guó)內(nèi)各類數(shù)字化資料庫(kù)及電子圖書館,幾乎全都是以圖像形式存儲(chǔ)相關(guān)資料的。本項(xiàng)目與眾不同的地方主要表現(xiàn)在以下幾個(gè)方面:

一是本項(xiàng)目必須對(duì)所搜集到的這些圖像資料進(jìn)行文字的識(shí)別和一定的整理,使其達(dá)到可檢索、可利用的目的。

二是本項(xiàng)目解決了針對(duì)海量圖像資料進(jìn)行自動(dòng)OCR的技術(shù)難題,設(shè)計(jì)了一個(gè)單節(jié)點(diǎn)日處理6000頁(yè)以上的OCR后臺(tái)服務(wù)系統(tǒng),能夠滿足后續(xù)新增圖像資料進(jìn)行隨后自動(dòng)OCR的需求。自動(dòng)化OCR技術(shù)可在很大程度上減少人工的投入。

三是項(xiàng)目利用WEB服務(wù)端技術(shù)及數(shù)據(jù)庫(kù)技術(shù),采用MVC模式構(gòu)建了一個(gè)全文數(shù)據(jù)庫(kù)的應(yīng)用網(wǎng)站,并設(shè)計(jì)了良好的索引形式,以滿足對(duì)于傳記篇目信息以及傳記全文信息的快速檢索。

四是所建立的全文數(shù)據(jù)庫(kù)的應(yīng)用平臺(tái),提供了以圖像/文本對(duì)照形式的文獻(xiàn)引用,提供了經(jīng)整理后的全文文本的可用性。

五是數(shù)據(jù)庫(kù)還在內(nèi)部實(shí)現(xiàn)了在線糾錯(cuò)、編輯的功能(暫未開放給外部使用者)。全文數(shù)據(jù)庫(kù)平臺(tái)建設(shè)于Windows系統(tǒng)上,部署管理相對(duì)簡(jiǎn)單,能夠支持絕大多數(shù)主流瀏覽器,PDF格式的圖像內(nèi)容亦有便于利用。

截至2015年11月底,項(xiàng)目已經(jīng)將搜集到的圖像資料及整理全文內(nèi)容導(dǎo)入數(shù)據(jù)庫(kù),對(duì)于未整理全文的圖像資料,進(jìn)行了自動(dòng)OCR文字識(shí)別。全文數(shù)據(jù)庫(kù)中涉及傳記篇目為162781篇,傳主55774人(尚有部分重復(fù)待整理合并)。篇目中,包含圖像資料的有11283篇,計(jì)247970頁(yè)。經(jīng)整理過的全文文字內(nèi)容及經(jīng)自動(dòng)OCR文字識(shí)別的內(nèi)容分別為7074萬字與1.8524億字,合計(jì)有2.5億以上的全文內(nèi)容可供全文檢索。

上述數(shù)據(jù)尚未包含“日本、俄羅斯、美國(guó)以及港澳臺(tái)”四個(gè)子項(xiàng)目《調(diào)研報(bào)告》的內(nèi)容。四個(gè)《調(diào)研報(bào)告》中的《20世紀(jì)中國(guó)人物傳記文獻(xiàn)資料目錄》,將于2015年寒假利用招聘學(xué)生勤工助學(xué)即可將整理好的三種語言相互對(duì)應(yīng)的中譯文《文獻(xiàn)資料目錄》導(dǎo)入數(shù)據(jù)庫(kù),供中外學(xué)者與中文數(shù)據(jù)庫(kù)一并查尋使用。屆時(shí)它將成為目前國(guó)內(nèi)外唯一,可在一個(gè)數(shù)據(jù)庫(kù)中同時(shí)應(yīng)用中文(含港澳臺(tái))、日文、俄文和英文四種語言,查找20世紀(jì)中國(guó)人物傳記文獻(xiàn)資料的數(shù)據(jù)庫(kù)。本項(xiàng)目所取得的研究成果最重的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值就在于此。

張計(jì)龍(復(fù)旦大學(xué)圖書館副館長(zhǎng)、文科數(shù)據(jù)中心副主任)評(píng)估意見:

一是對(duì)整個(gè)項(xiàng)目的評(píng)價(jià),從一般的社科基金項(xiàng)目來說,做這么多的數(shù)據(jù)量,還能搞個(gè)平臺(tái)出來,搞這樣一個(gè)系統(tǒng)出來,我覺得應(yīng)該是超出了正常的社會(huì)科學(xué)領(lǐng)域的項(xiàng)目。

這樣的投入所達(dá)到的效果,技術(shù)平臺(tái)和數(shù)據(jù)量,包括做的批處理的程序,這些代價(jià)都是挺高的,人文社科基金的經(jīng)費(fèi)不多,按照正常開發(fā)的話成本比較高,從這個(gè)角度來講投入比較少,產(chǎn)出量很不錯(cuò)。

在做的時(shí)候遇到很多困難,那么多數(shù)據(jù)不是簡(jiǎn)單的投入,很多類似項(xiàng)目軟件開發(fā)的費(fèi)用高達(dá)數(shù)千萬元,工作是收集紙本的資料,數(shù)字化掃描,然后做文字識(shí)別,里面的投入包括在線的標(biāo)注、編輯等,投入很高,從這個(gè)角度來說這個(gè)項(xiàng)目很不容易。

二從改進(jìn)建議來說,主要是從后期看需要繼續(xù)投入,一個(gè)是版權(quán)控制,要分層考慮,對(duì)于沒有版權(quán)問題的怎么處理,有版權(quán)問題的怎么處理,應(yīng)該有一個(gè)策略,最好有一個(gè)怎么去引用,怎么說明,要有一個(gè)規(guī)范化的問題。第二個(gè)是編輯方面,怎么控制,這個(gè)有先例可以借鑒。第三個(gè)是元數(shù)據(jù),因?yàn)槟阋獧z索,經(jīng)得起使用,元數(shù)據(jù)處理的規(guī)范性,不需要去研究,已經(jīng)有了比較成熟的規(guī)范,包括檢索的框架,叫資源發(fā)現(xiàn)系統(tǒng),已經(jīng)把需求全部搞定,只要把程序設(shè)定好就可以了。元數(shù)據(jù)規(guī)范這一塊還需要進(jìn)一步處理,有可能需要再補(bǔ)充一些字段。

最后一點(diǎn)建議,因?yàn)榻?jīng)費(fèi)支持有限,所以做的沒有那么精細(xì),會(huì)影響以后的使用,所以以后質(zhì)量上還有進(jìn)一步提高的余地。后繼維護(hù),硬件設(shè)備我們可以提供一些支持,如果要開放,版權(quán)問題要處理好,有限開放,合理利用,在系統(tǒng)方面要做進(jìn)一步的改進(jìn),包括數(shù)據(jù)的規(guī)范方面,要代表復(fù)旦的水準(zhǔn)。技術(shù)和設(shè)備上應(yīng)該沒什么問題,學(xué)校圖書館可以提供存儲(chǔ)服務(wù)器的支持,但在內(nèi)容建設(shè)方面需要項(xiàng)目組進(jìn)一步達(dá)到開放的要求。

彭希哲(復(fù)旦大學(xué)發(fā)展研究院副院長(zhǎng)、文科數(shù)據(jù)中心主任)評(píng)估意見:

我覺得姜老師的團(tuán)隊(duì)做了一件功德無量的事情,這個(gè)事情過去沒有人做,是非常好的一件事情。從體量、涉及范圍、傳主將近六萬傳主,很不容易,是一項(xiàng)開創(chuàng)性的工作。從技術(shù)角度,我感覺他也有很多創(chuàng)新的地方,如OCR解讀與檢索,技術(shù)上本身也是有創(chuàng)新的。

不足之處:

第一,其本身有內(nèi)在的創(chuàng)新地方,要把創(chuàng)新點(diǎn)講得更清楚。第二,從數(shù)據(jù)庫(kù)建設(shè)來說已經(jīng)基本實(shí)現(xiàn)目標(biāo),建成以后怎么辦?如果課題組繼續(xù)存在,但又需要經(jīng)費(fèi)、人力,后續(xù)怎么更新,怎么修正,誰來監(jiān)控,怎么保證質(zhì)量?第三,原始圖像的像素如果降低,因?yàn)橐L(zhǎng)久傳下去,以后會(huì)覺得很可惜。

這一期聚焦在建設(shè),如果后面還有的話,可以往怎么研究來發(fā)展。文獻(xiàn)研究中間出現(xiàn)的頻率有多高,在哪一年代多少,現(xiàn)在有專門軟件做這個(gè)事情,在線的統(tǒng)計(jì)與分析,后期的研究可以做作者的地理信息系統(tǒng),就是作者在哪里,什么年代出現(xiàn)在什么地點(diǎn),從研究角度來說,如果檢索能夠進(jìn)一步精細(xì)化,作者名,作者傳記,作者出生地,哪一個(gè)年份出現(xiàn)多少人,這樣對(duì)后期研究可以提供更多方便,數(shù)據(jù)庫(kù)使用的價(jià)值會(huì)更高。

后期可以與學(xué)校圖書館和大數(shù)據(jù)學(xué)院合作。按照復(fù)旦對(duì)基礎(chǔ)技術(shù)服務(wù)平臺(tái)的設(shè)想,具體的日常管理可以交給圖書館,但你們要重點(diǎn)把內(nèi)容把握好,整體移交都是沒問題的。目前這個(gè)數(shù)據(jù)庫(kù)掛在復(fù)旦校園網(wǎng),以后是不是單獨(dú)弄一個(gè)二級(jí)域名,讓全世界都能來檢索,不一定在復(fù)旦才能檢索,要設(shè)一個(gè)二級(jí)域名,有很多技術(shù)上的東西。

熊月之(復(fù)旦大學(xué)歷史系教授、復(fù)旦大學(xué)國(guó)際上海史研究中心主任)評(píng)估意見:

這個(gè)項(xiàng)目的價(jià)值不用講,每次評(píng)都是眾口一詞的,從開始申請(qǐng)到后來兩次追加,都是全票通過,得到的經(jīng)費(fèi)支持也是最高的,大家對(duì)這個(gè)項(xiàng)目都很期待。

第一,從讀者的角度,我經(jīng)常用知網(wǎng)、讀秀、超星等,我如果在你這個(gè)網(wǎng)上查的東西,不如讀秀的東西,那么我對(duì)你這個(gè)的價(jià)值就會(huì)懷疑。我的意思是我們現(xiàn)在有沒有可能把讀秀的東西鏈接到這里面來,當(dāng)然你要得到讀秀的授權(quán),否則我想讀秀的很多內(nèi)容你肯定包括不了的,我作為用戶的話,會(huì)進(jìn)行比較。

第二呢,文獻(xiàn)的識(shí)別不用太講究,我認(rèn)為可以這樣做,一個(gè)是識(shí)別,第二個(gè)是粗識(shí)別,第三個(gè)是根本不識(shí)別。我要查某一個(gè)人,一查所有的數(shù)據(jù)都能出來,這個(gè)數(shù)字越多越好。我們?nèi)绻軌虬思乙延械哪切⿺?shù)據(jù)庫(kù)的數(shù)據(jù),當(dāng)然是合法的,那就好了,還有內(nèi)容是他們所沒有的,他們的一些內(nèi)容也是我們?cè)偎鸭菜鸭蝗模@樣使用價(jià)值就比較高了。還有一個(gè)是修改問題,最好這個(gè)權(quán)力還是回過來,不能讓他輕易修改,如果修改要提交,定期有人處理,否則同名同姓的話,修改的人弄錯(cuò)的話,相關(guān)資料就會(huì)混淆。

倪重匡(復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授)評(píng)估意見:

這個(gè)數(shù)據(jù)庫(kù)工作量很大,做得很辛苦,做了不少工作。一個(gè)是索引數(shù)字化,第二是在這個(gè)基礎(chǔ)上搜集大批的材料,第三是進(jìn)行處理,第四是檢索的界面,第五是放到網(wǎng)上。這些工作有許多具體的東西要進(jìn)行處理,我覺得做得很好。

問題和建議:第一是識(shí)別率方面需要進(jìn)一步提高,盡可能對(duì)原始文獻(xiàn)的污點(diǎn)進(jìn)行處理,提高識(shí)別率。第二是關(guān)鍵字的查找需要標(biāo)注,盡可能自動(dòng)生成,增加模糊檢索。第三,數(shù)據(jù)庫(kù)中設(shè)計(jì)的OCR自動(dòng)處理軟件,大大提高了效率,如果能進(jìn)一步精細(xì)化,形成一套規(guī)范的軟件,可以進(jìn)行商業(yè)運(yùn)作

二、對(duì)子項(xiàng)目之二、三、四:“日本、港澳臺(tái)、俄羅斯20世紀(jì)中國(guó)人物傳記資料的整理分析與研究”調(diào)研報(bào)告的評(píng)估意見

本次評(píng)估會(huì)由本項(xiàng)目工作組負(fù)責(zé)人傅德華教授主持。姜義華教授首先代表本項(xiàng)目工作組向各位專家放棄周日(12月13日)休息時(shí)間,出席此次評(píng)估會(huì)表示衷心的謝意。

姜義華教授在致辭中說:“整個(gè)20世紀(jì)中國(guó)人物傳記與數(shù)據(jù)庫(kù)建設(shè)從一開始就找吳館長(zhǎng)來,當(dāng)然大量工作是傅老師與資料室的幾位具體在做,從搜集整理到數(shù)據(jù)輸入都是找來一大幫學(xué)生幫忙,所以經(jīng)費(fèi)中勞務(wù)費(fèi)占的比重相當(dāng)大。數(shù)據(jù)庫(kù)大量的工作一開始希望把國(guó)外的資料收集得多一點(diǎn),但實(shí)際做的時(shí)候就知道工作量實(shí)在太大,而且困難太多,比如美國(guó)、歐洲,英文、法文等等,我們沒有這個(gè)力量和經(jīng)費(fèi)去做,包括俄羅斯、日本以及港澳臺(tái),要做的比較完整困難都比較大,項(xiàng)目組到日本、俄羅斯尋求合作。真的要把傳記資料收集得很完整實(shí)際上是辦不到的,包括我們國(guó)內(nèi)的現(xiàn)在做了六萬多人,但是二十世紀(jì)中國(guó)人物傳記遠(yuǎn)遠(yuǎn)超過這個(gè)數(shù)字,而且現(xiàn)在有大量的民間的人物,相關(guān)東西也很多。所以現(xiàn)在還是根據(jù)我們?cè)瓉淼摹抖兰o(jì)中國(guó)人物傳記資料索引》為基礎(chǔ),從目前數(shù)據(jù)庫(kù)來說,基本上按照該書收錄范圍來做。實(shí)際上現(xiàn)在還有大量的檔案資料,大量的個(gè)人相關(guān)的文獻(xiàn),沒有辦法全都收集進(jìn)去,比如我們這兒吳景平老師做的宋子文的檔案,這些檔案都與他的傳記資料有關(guān),他單獨(dú)做一個(gè)宋子文的數(shù)據(jù)庫(kù),如果做蔣介石的數(shù)據(jù)庫(kù),同樣量非常大,所以我們這里傳記資料還是比較確定的,包括一些自傳、年譜或者別人寫他的傳記,每個(gè)人物的相關(guān)檔案資料沒辦法做進(jìn)去,所以題目。這個(gè)項(xiàng)目得到了國(guó)家社科基金委相關(guān)評(píng)審專家鼎力支持,由于工作量很大,資金方面經(jīng)過兩次增補(bǔ)總計(jì)240萬,在社科基金中資助力度是比較大的。數(shù)據(jù)庫(kù)的整理、輸入讓青蘋果幫我們做都需要比較大的投入,部分是到國(guó)外、港澳臺(tái)進(jìn)行研討,這么大一個(gè)投入,我們努力去完成。我們只能限定范圍,否則數(shù)量太大,無法控制局面,那樣就算投入再多,恐怕也未必能夠真的全部完成。那個(gè)宋子文的檔案,一個(gè)人物的數(shù)據(jù)庫(kù)數(shù)量就很大,所以我們目前是按照個(gè)人寫的傳記,名為傳記資料,收錄的主要是別人寫的相關(guān)傳記。還有一點(diǎn)原來編人物傳記資料的時(shí)候就有選擇,例如文革中間批判文章就多得不得了,我們歷史系的二周,當(dāng)時(shí)報(bào)刊上批判周谷城、周予同的文章就非常多,但這些都沒有收錄。沒有辦法非常完整,大量的檔案資料無法收進(jìn)去,即使如此現(xiàn)在的數(shù)量也已經(jīng)足夠大了。所以現(xiàn)在的數(shù)據(jù)庫(kù)只能說是框架搭起來了,是開放性的,不是最后完成的,我們討論的一個(gè)問題是將來新的資料怎么補(bǔ)充進(jìn)去,將來怎么與那些專項(xiàng)的數(shù)據(jù)庫(kù)更好地聯(lián)結(jié)在一起,這里作為一個(gè)切入口建立起更廣泛的數(shù)據(jù)庫(kù),因?yàn)檎嬲拇髷?shù)據(jù)時(shí)代不是靠一個(gè)數(shù)據(jù)庫(kù)解決所有問題,而是要聯(lián)結(jié)。目前先放在復(fù)旦,簡(jiǎn)單的處理,以后可以放在上圖,這樣應(yīng)用的范圍更廣泛。驗(yàn)收的時(shí)候是以開放的形式,后面的驗(yàn)收還要組織另外的專家去做,我們是初步的,自己請(qǐng)一些專家做評(píng)估,這次把二、三、四子項(xiàng)目合在一起做!

傅德華教授代表項(xiàng)目工作組向各位專家匯報(bào)了所承擔(dān)的“日本、港澳臺(tái)、俄羅斯20世紀(jì)中國(guó)人物傳記資料的整理分析與研究”三個(gè)子項(xiàng)目的調(diào)研情況,介紹了項(xiàng)目工作組的以后要做的工作,指出項(xiàng)目中還有很多不盡人意的地方,既有漏收,亦有搞錯(cuò),還存在這樣那樣的問題,剛才姜老師也說了這只是一個(gè)初步的框架,怎么樣做得更好,還有大量的工作等著我們?nèi)プ觯旅嬲?qǐng)各位專家提出寶貴的意見。

姜義華教授說:俄羅斯的部分我們本來想和俄羅斯歷史學(xué)會(huì)合作,但現(xiàn)在俄羅斯管得非常嚴(yán),必須是傳主的家屬親自提出申請(qǐng),然后才能看相關(guān)檔案,比如某人檔案那里有,但是必須由其子女或者其他親屬提出申請(qǐng),然后親自去查閱,這樣就麻煩了,因?yàn)楣伯a(chǎn)黨和國(guó)民黨有一大堆人的檔案在那里,這個(gè)現(xiàn)在我們沒辦法做。包括我們請(qǐng)的俄羅斯專家也不是專門研究這些中國(guó)人物,所以他們收集的也不會(huì)非常完整。在這種情況下,現(xiàn)在完整的檔案無法收集回來,必須由他們的家屬提出申請(qǐng)并獲得對(duì)方的批準(zhǔn),F(xiàn)在收集的俄羅斯關(guān)于中國(guó)人的傳記很多是當(dāng)代的,找俄國(guó)人選擇傳記,里面有他們對(duì)這些問題的認(rèn)知,不像日本人,他們對(duì)中國(guó)的研究要細(xì)致得多。中俄之間五十年代關(guān)系好,相互研究很多,后來關(guān)系惡化之后,我們把俄國(guó)研究丟了,他們把中國(guó)研究也丟了,恢復(fù)關(guān)系以后,新的一批人和前面的一撥人就不一樣了,這是俄羅斯研究目前的現(xiàn)狀。

吳建中(上海圖書館館長(zhǎng)、研究員)評(píng)估意見:

感謝姜老師、傅老師和項(xiàng)目組做了大量工作,工作做的非常細(xì),收的資料也非常多,不敢說全部收集,但是可以說盡可能收全,我相信傅老師已經(jīng)做到了,我想講一些綜合方面的意見。

第一,既然是數(shù)據(jù)庫(kù),對(duì)一些字段要有非常明確的定義,比如說毛澤東、魯迅有很多的別名,有名的人的別名我們知道,名氣小的人的別名我們就不知道了,這需要我們事先做工作,既然是一個(gè)開放的數(shù)據(jù)庫(kù),要按照數(shù)據(jù)庫(kù)元數(shù)據(jù)的規(guī)則,比如說傳主,比如說相關(guān)人物,比如說事件,比如說他寫的書,或者被寫的傳記,需要設(shè)計(jì)一個(gè)體系,在搜集過程中確定一個(gè)框架,比如說傳主,他的生卒年月,因?yàn)橥盏囊埠芏,定一個(gè)傳主,以后標(biāo)引的時(shí)候有一個(gè)限制,這樣傳主就比較明確,到了數(shù)據(jù)庫(kù)以后編目更加精細(xì)。(姜老師:是的,這放在第一個(gè)子項(xiàng)目,也就是中國(guó)人物傳記資源數(shù)據(jù)庫(kù)里面去做。)在索引里面列參見條,越做越多,數(shù)據(jù)庫(kù)開放以后變得更加規(guī)范,否則人家會(huì)說怎么一個(gè)人變成兩個(gè)人了。這樣的工作越往后,要公開的時(shí)候人家會(huì)更加挑剔。(傅老師:同名同姓的要分別考證)傳主后面最好要有一個(gè)生卒年,這樣就有限定了。后面這個(gè)工作量很大,但是還好處理,因?yàn)閳D書館有標(biāo)準(zhǔn)檔,筆名、別名全部在里面。

第二,涉及到內(nèi)容的挖掘。我們只知道傳主,書中內(nèi)容不清楚,那就需要知道內(nèi)容,然后才能進(jìn)一步挖掘,否則里面可能有一個(gè)重要人物,可能某本書是講蔣介石的,但是里面講到了毛澤東,那就少了這一塊。這是后面的內(nèi)容挖掘,相關(guān)的子項(xiàng)目其實(shí)都是相互關(guān)聯(lián)的,這就需要數(shù)據(jù)庫(kù)來關(guān)聯(lián),在此之前如果能夠把框架考慮好,可以事半功倍,否則割裂開來,變得分散了,關(guān)聯(lián)以后就可以整合在一起,工作可能也會(huì)更好做一點(diǎn)。我這是挑剔性的,工作已經(jīng)做得非常好了,大量的工作靠人力來做。

第三個(gè)建議,我講的都是建議,不是批評(píng),都做的相當(dāng)好,姜老師、傅老師都是相當(dāng)嚴(yán)謹(jǐn)?shù)。另外的學(xué)者有相關(guān)資料,他看到這個(gè)數(shù)據(jù)庫(kù)里面沒有,能不能允許他把相關(guān)資料加上去?也就是說如果你開放了,別人有資料,也可以往里面加。要有一個(gè)審核機(jī)制,哪一個(gè)類別由誰審核,你提交后我要審核,然后才能進(jìn)去。結(jié)項(xiàng)的時(shí)候要留一個(gè)口子,以后可以加上去。不能保證百分之百,但留下一種可能,你可以不斷的上傳資料,這就為后人的挑剔提供了解決辦法。這就是一個(gè)平臺(tái),一個(gè)資源,有了這個(gè)平臺(tái),以后資源就向這兒走。這樣對(duì)以后的繼續(xù)建設(shè)有利。關(guān)于這個(gè)項(xiàng)目,做的非常好。

胡令遠(yuǎn)(復(fù)旦大學(xué)日本研究中心主任、教授)評(píng)估意見:

非常感謝姜老師和傅老師!這個(gè)項(xiàng)目對(duì)我們搞日本研究的人來說,是非常有幫助的,通過這樣一個(gè)整理,接下來對(duì)我們的研究工作也有很大幫助。這個(gè)大題目是傳記資料的整理與數(shù)據(jù)庫(kù)的建設(shè),子課題還有點(diǎn)不一樣,我想根據(jù)傅老師講的四個(gè)方面說一點(diǎn)自己的看法。

第一個(gè)方面,通過相關(guān)工具書整理中國(guó)人名,查找相關(guān)文獻(xiàn)資料。其中列舉的工具書還不太完整,做的時(shí)候不能說完全無遺漏,但不能有大的遺漏,這樣工具書方面需要更全一點(diǎn),回頭我向傅老師列一個(gè)我們了解的工具書的名單作為參考。

第二個(gè)方面,從日本國(guó)立國(guó)會(huì)圖書館的網(wǎng)頁(yè)上下載。這種方法比較經(jīng)濟(jì)有效,但京都方面還要多做一些工作,因?yàn)榫┒即髮W(xué)關(guān)于中國(guó)的研究以前比東京還要又優(yōu)勢(shì),人物傳記與他們做的中國(guó)研究是密不可分的,所以京都大學(xué)圖書館以及相關(guān)書庫(kù)還需要做一些調(diào)查,那樣才更加完整。如果要全部的收集,那個(gè)工作量大的無法估量,無法承擔(dān)的。先篩選一遍,不要有大的遺漏就可以了。

第三個(gè)方面,通過外出調(diào)研查找日文傳記文獻(xiàn)資料。日本不少文獻(xiàn)資料數(shù)字網(wǎng)絡(luò)化搞得比較早,但也有比較保守的一面,有很多老先生不使用現(xiàn)在的計(jì)算機(jī)網(wǎng)絡(luò)手段和工具,不少有代表性的文獻(xiàn)還是要到日本去查找的,有些東西沒有放到網(wǎng)上。作為傳記資料,有一些內(nèi)容可能有特別的考慮,沒有放上去。所以到日本進(jìn)行調(diào)研是一種非常好的方式。除了孫文紀(jì)念館之外,還有其他一些圖書館,包括一些手寫的資料,或者沒有上網(wǎng)的資料,都可以作為一個(gè)關(guān)注點(diǎn)。沒有上網(wǎng)的資料,可能是他們覺得比較珍貴或者不方便的,但是可能對(duì)我們非常有用。我們要知道這些信息,去日本調(diào)研之前準(zhǔn)備一個(gè)清單,把要查找的內(nèi)容列上去。除了前去調(diào)研,還可以委托在日本的學(xué)者幫助查找。

第四個(gè)方面,通過學(xué)術(shù)研討會(huì)擴(kuò)大影響。我覺得不完全是要擴(kuò)大影響,舉辦研討會(huì)是為了對(duì)我們的項(xiàng)目本身進(jìn)行補(bǔ)充和研究,以便做的更加精細(xì)化,更高、更好。比如和日本的一些學(xué)者討論相關(guān)問題,中國(guó)人物傳記的定義,收錄的范圍,以及人物的選擇標(biāo)準(zhǔn)等等,和日本人溝通這些問題就會(huì)比較有價(jià)值。

第五個(gè)方面,項(xiàng)目后續(xù)工作以及對(duì)項(xiàng)目的分析。目前可以通過收集到的資料進(jìn)行分析與研究,收錄的傳主中政治人物占大多數(shù),宗教的,藝術(shù)的,經(jīng)濟(jì)的,經(jīng)濟(jì)的比較少。日本所寫中國(guó)人物傳記,除了時(shí)代性,就是哪一個(gè)時(shí)期中日關(guān)系怎么樣,比如文革時(shí)期,牽涉到的人物傳記資料在日本的數(shù)量非常大。分析的時(shí)候一個(gè)是根據(jù)他們對(duì)中國(guó)的關(guān)心程度,在某些方面關(guān)心的深度怎么樣,另外根據(jù)他們對(duì)不同專業(yè)的傳主的關(guān)注,也可以了解日本對(duì)中國(guó)的關(guān)心的重點(diǎn)所在,F(xiàn)在沒有看到分析的資料,結(jié)項(xiàng)的時(shí)候可以補(bǔ)充分析資料,以人物的類別或者專業(yè)的類別可以窺見日本在不同時(shí)期對(duì)中國(guó)的關(guān)注點(diǎn),對(duì)以后我們的日本研究有何幫助。分析的時(shí)候可以請(qǐng)一些專家搞一個(gè)小型座談會(huì),其實(shí)就是分析研究。

楊 成(華東師范大學(xué)俄羅斯研究中心副主任、副教授)評(píng)估意見:

謝謝姜老師和傅老師。談點(diǎn)自己的看法,這個(gè)項(xiàng)目工作量非常大,難度非常大,最難的可能在俄語這一塊,有一些細(xì)節(jié)存在不少問題。問題不少的原因在于無論做翻譯的還是進(jìn)行處理的,不是誰的錯(cuò),而是學(xué)科分化的問題,學(xué)科現(xiàn)在越來越細(xì)化,做區(qū)域研究的可能只做俄羅斯,但對(duì)國(guó)內(nèi)的人物不見得了解。所以在處理過程當(dāng)中就會(huì)出現(xiàn)一些細(xì)小的問題。比如很多姓名的翻譯都是有問題的,不是規(guī)范化的做法,有些可能是同一個(gè)人,前后翻譯的時(shí)候就出現(xiàn)偏差,看起來是兩個(gè)人,實(shí)際上是同一個(gè)人。有的純粹是語言訓(xùn)練不夠的問題,這現(xiàn)在是一個(gè)通病,很多專業(yè)工作者翻譯出來的東西錯(cuò)誤很多,不是他語言不好,語言學(xué)的很好,但是他對(duì)專業(yè)的東西不懂,導(dǎo)致出現(xiàn)很多翻譯的錯(cuò)誤,類似情況在現(xiàn)當(dāng)代文學(xué)翻譯當(dāng)中也有很多。最好請(qǐng)一位俄語系的老師一個(gè)個(gè)校對(duì)一下,因?yàn)檫@是有規(guī)范的,不能隨便翻譯,否則其他人查傳記作者的時(shí)候,顯示是很多人,但實(shí)際上可能是同一個(gè)人。我建議找人重新仔細(xì)校對(duì)一遍,從人名到具體的篇名,才會(huì)避免大的疏漏性的問題。我非常欽佩姜老師和傅老師,花費(fèi)這么大精力做這個(gè)工作,而且工作量這么大,非常辛苦,非常困難,我提出的一些細(xì)節(jié)上的問題,像剛才吳老師講的,做成一個(gè)開放的平臺(tái),有一個(gè)糾錯(cuò)或者修正的機(jī)制,可以隨時(shí)補(bǔ)充。

提一個(gè)小問題,現(xiàn)在只有傳主和條目,我在看的時(shí)候?qū)α⒚娴膬?nèi)容感興趣,想知道俄國(guó)人是怎么寫的,更期待看到原文,可能他們寫的與中國(guó)人寫的是不一樣的,俄國(guó)人、日本人、美國(guó)人都在寫某一個(gè)中國(guó)人,他們的立場(chǎng)與評(píng)價(jià)都不相同,對(duì)研究者來說就會(huì)比較關(guān)注這背后不同的話語反映出怎么樣的認(rèn)知,與各方國(guó)與國(guó)之間的關(guān)系、各方的研究方法、政治立場(chǎng)、時(shí)代背景等等有何關(guān)系,做數(shù)據(jù)庫(kù)的時(shí)候除了條目之外,那些內(nèi)容能否作為共享成為開放的一部分。

還有一個(gè)小建議,五十年代的時(shí)候相關(guān)內(nèi)容比較多,九十年代以后也有不少,中國(guó)的一些小說包括推理小說被翻譯過去,俄國(guó)人很喜歡看推理小說,一般來說翻譯過去的時(shí)候會(huì)有一個(gè)譯者序,里面會(huì)對(duì)作者的生平有一個(gè)比較詳細(xì)的回顧,這部分應(yīng)該也被收錄進(jìn)人物傳記資料,所以不能僅僅與科學(xué)院的亞洲文獻(xiàn)部合作,遠(yuǎn)東所、東方學(xué)所等從事具體中國(guó)研究的人可能會(huì)更熟悉情況,不能保證科學(xué)院亞洲研究部搜集了所有的文獻(xiàn),科學(xué)院的情報(bào)所也就是信息所搜集的資料也非常多,從沙俄時(shí)期開始就都有,后續(xù)可以考慮與他們也進(jìn)行合作,覆蓋面可以更廣,他們不僅可以提供俄國(guó)人寫的東西,還定期發(fā)布索引、摘要甚至原文等,把英文、德文、日文的東西匯集在一起,對(duì)于我們英國(guó)、美國(guó)、德國(guó)、日本的東西都是一種補(bǔ)充,從他們的視角可以有一些不同的文獻(xiàn)來源,有可能對(duì)我們的工作有補(bǔ)充。如果將來繼續(xù)做的話,我建議與他們也可以建立一種機(jī)制性的聯(lián)系。

熊月之(復(fù)旦大學(xué)歷史系教授、復(fù)旦大學(xué)國(guó)際上海史研究中心主任) 在發(fā)來的對(duì)三個(gè)子項(xiàng)目“日本、港澳臺(tái)和俄羅斯20世紀(jì)中國(guó)人物傳記資料的整理與分析調(diào)研報(bào)告”的《鑒定意見》中這樣寫道:

“以姜義華教授作為總項(xiàng)目首席專家的國(guó)家社科基金重大項(xiàng)目(10&ZD097)“20世紀(jì)中國(guó)人物傳記資源整理與數(shù)據(jù)庫(kù)建設(shè)研究”,自立項(xiàng)以來,一直在積極、穩(wěn)妥地推進(jìn),我多次參加他們階段性成果鑒定會(huì)。近期完成的三個(gè)子項(xiàng)目,即以金光耀教授作為子項(xiàng)目負(fù)責(zé)人的 “日本20世紀(jì)中國(guó)人物傳記資料的整理分析與研究”,章清、吳建中教授作為子項(xiàng)目負(fù)責(zé)人的“港澳臺(tái)20世紀(jì)中國(guó)人物傳記資料的整理分析與研究”,金重遠(yuǎn)教授、劉軍梅教授作為子項(xiàng)目負(fù)責(zé)人的 “俄羅斯20世紀(jì)中國(guó)人物傳記資料的整理分析與研究”,均實(shí)施非常認(rèn)真,內(nèi)容相當(dāng)豐富。這三個(gè)子項(xiàng)目的負(fù)責(zé)人,均為活躍在學(xué)術(shù)研究第一線的學(xué)者。金光耀、章清教授是復(fù)旦大學(xué)研究近現(xiàn)代史的著名學(xué)者,對(duì)于中外關(guān)系、中國(guó)近現(xiàn)代史造詣很深。吳建中教授是上海圖書館館長(zhǎng),上海圖書館藏有相當(dāng)豐富的港澳臺(tái)人物傳記資料。金重遠(yuǎn)教授是著名世界史專家,在從事本項(xiàng)目期間不幸去世,繼任者劉軍梅教授是著名俄羅斯問題專家。這三個(gè)子項(xiàng)目的實(shí)施,均得到國(guó)際、國(guó)內(nèi)相關(guān)方面科研單位與專家的大力支持,課題組均曾到相關(guān)地方搜集資料,并與相關(guān)單位聯(lián)合舉行專題討論會(huì),包括在香港、臺(tái)北、日本、俄羅斯。這使得課題組搜集的資料比較全面、實(shí)在,具有學(xué)術(shù)性。

從已經(jīng)編入目錄、收入數(shù)據(jù)庫(kù)的資料看,“20世紀(jì)中國(guó)人物傳記資源整理與數(shù)據(jù)庫(kù)建設(shè)研究”的承擔(dān)者,對(duì)于所承擔(dān)的項(xiàng)目,高度負(fù)責(zé),極其敬業(yè),所搜集資料相當(dāng)豐贍,數(shù)據(jù)庫(kù)建設(shè)很為使用,質(zhì)量?jī)?yōu)等,達(dá)到了當(dāng)初設(shè)計(jì)的目標(biāo)!

劉 平(復(fù)旦大學(xué)歷史系教授) 在他發(fā)來的對(duì)子項(xiàng)目之六:“美國(guó)的20世紀(jì)中國(guó)人物傳記資料的整理分析與研究調(diào)研報(bào)告”的《鑒定書》中從以下五個(gè)方面,發(fā)表了自己的評(píng)估意見:

1、是否完成項(xiàng)目:吳景平教授領(lǐng)銜、傅德華教授具體分管的該調(diào)研報(bào)告,總字?jǐn)?shù)1.4萬余字,分為“項(xiàng)目工作組五年來的工作”、“本項(xiàng)目后續(xù)工作的打算”兩個(gè)主體部分與兩個(gè)附錄,縱覽其內(nèi)容,可以說已經(jīng)完成原先約定的任務(wù)。

2、研究?jī)?nèi)容和研究方法的創(chuàng)新:該項(xiàng)目的主題內(nèi)容分為以下幾個(gè)方面:首先全面系統(tǒng)地從英文書目查找與中美關(guān)系有關(guān)的中國(guó)人物傳記資料文獻(xiàn)目錄,這是一項(xiàng)比較耗時(shí)耗力的工作;其次,該項(xiàng)目從中文書刊上搜檢與中美關(guān)系有關(guān)的中國(guó)人物傳記資料文獻(xiàn)目錄,搜羅比較全面;第三,組織學(xué)生從美國(guó)各大學(xué)圖書館網(wǎng)頁(yè)或請(qǐng)學(xué)生直接到美國(guó)有關(guān)檔案館幫助查找,這項(xiàng)工作是對(duì)上面兩項(xiàng)工作的拾遺補(bǔ)缺;第四,招募學(xué)生將查找的英文或中文文獻(xiàn)資料互譯成中英文;第五,將相關(guān)資料整理成文本文檔。

從上述文獻(xiàn)數(shù)據(jù)中得出有價(jià)值的分析論斷,其方法是計(jì)量分析,該項(xiàng)目從中基本理清了“美國(guó)20世紀(jì)中國(guó)人物傳記資料的整理分析”狀況。本項(xiàng)目也提出了后續(xù)工作的打算,從中可以得知該項(xiàng)目最終將有質(zhì)量上的保障。

3、學(xué)風(fēng)、文風(fēng)方面:縱觀這份調(diào)研報(bào)告,各位作者學(xué)風(fēng)嚴(yán)謹(jǐn),工作勤懇,行文布局基本符合學(xué)術(shù)規(guī)范;文風(fēng)方面,總體很好,但還有必要在語言文字上精雕細(xì)琢。

4、學(xué)術(shù)價(jià)值、應(yīng)用價(jià)值或社會(huì)影響:該調(diào)研報(bào)告針對(duì)美國(guó)20世紀(jì)中國(guó)人物傳記資料進(jìn)行詳細(xì)調(diào)查摸底,體現(xiàn)了較高的學(xué)術(shù)價(jià)值。至于社會(huì)影響,主要體現(xiàn)在一定程度上滿足了公眾對(duì)于該項(xiàng)目之資料性、工具性和公益性的要求。

5、有何不足或欠缺,以及修改、提高的具體意見和建議。1)該項(xiàng)目統(tǒng)計(jì)數(shù)據(jù)量大面廣,即使目前做了許多工作,但依然是很不完整的(如美國(guó)學(xué)術(shù)界對(duì)毛澤東、周恩來等中國(guó)既往領(lǐng)導(dǎo)人的海量研究,如何處理這類難題,后續(xù)工作要仔細(xì)斟酌。2)該項(xiàng)目搜集資料來源的工具書尚不齊全,包括項(xiàng)目工作組成員傅德華教授參與主編的《150年中美關(guān)系史論著目錄:1834--1900》(復(fù)旦大學(xué)出版社2005年)一書所收錄的有關(guān)人物傳記都被遺漏了;還有《劍橋中國(guó)晚清史》上下冊(cè)、《劍橋中華民國(guó)史》上下冊(cè)、《劍橋中華人民共和國(guó)史》上下冊(cè),其書后所附征引文獻(xiàn)篇目均有大量的人物傳記篇目,需要詳加檢索。3)向研究中美關(guān)系的專家學(xué)者征求意見也不夠。4)從調(diào)研報(bào)告的撰寫情況來看,其中還有不少技術(shù)性、文字性工作有待改進(jìn)。這些缺陷都有待在后續(xù)工作中加以改進(jìn)和完善。

以上是項(xiàng)目工作組對(duì)各個(gè)子項(xiàng)目自評(píng)后的整理摘要。專家組對(duì)本項(xiàng)目五年來所做的工作給予了一定的肯定,這是對(duì)項(xiàng)目的鼓勵(lì)與鞭策,同時(shí)指出其中還存著不足之處,對(duì)需要改進(jìn)和提高的地方提出了意見和建議,對(duì)研究中的難題提出了可供參考的解決辦法,所有這些問題都有待項(xiàng)目工作組在后續(xù)工作中加以改進(jìn)和完善。我們相信,通過全國(guó)規(guī)劃辦組織專家對(duì)本項(xiàng)目的評(píng)審鑒定一定會(huì)提出更多、更好的改進(jìn)意見和建議,項(xiàng)目工作組將在后續(xù)工作中加大投入,爭(zhēng)取有更大的收獲,努力做好國(guó)家交給我們的這一造福中外學(xué)術(shù)界同仁的重大項(xiàng)目。

(課題組供稿)

(責(zé)編:李葉)
青岛市| 河间市| 海阳市| 鄢陵县| 平乐县| 奉化市| 辽阳市| 渭源县| 高碑店市| 桂东县| 肥城市| 驻马店市| 阳谷县| 常州市| 巴楚县| 湖北省| 定结县| 荣成市| 疏附县| 读书| 灵寿县| 来宾市| 兴业县| 霍城县| 华容县| 哈尔滨市| 江北区| 开封县| 岳普湖县| 福鼎市| 万州区| 镇远县| 同心县| 南江县| 雅安市| 诸暨市| 湟中县| 塔城市| 苗栗市| 茂名市|