舊版網(wǎng)站入口

站內(nèi)搜索

“漢語史語料庫建設(shè)研究”中期檢查報告

2014年02月26日19:09來源:全國哲學社會科學工作辦公室

一、 研究計劃總體執(zhí)行情況及各子課題進展情況

本項目于2010年12月27日獲國家社科基金辦批準立項,立項后召集課題組全體人員根據(jù)國家社科基金辦反饋的“第17組綜合評價意見”(即對本項目的專家意見),就專家組提出的“縮小課題范圍,只做中古漢語語料庫,集中力量將中古漢語語料庫做精做好。加強語料庫建設(shè)相關(guān)理論研究”等意見重新填寫了項目的目標任務(wù)書并得到國家社科基金辦的批準。

項目的最終目標是:在五年建設(shè)期間,1.建成國內(nèi)首個可用于漢語史研究的由多個子庫組成的收錄原始語料1000萬字,庫容1600萬字的具有多集合特點的深加工中古漢語語料庫(內(nèi)容上是中古漢語代表性語料的集合,結(jié)構(gòu)上是?睅臁⒘x項庫、語法庫等多庫的集合,功能上是自動分詞軟件、自動標注軟件、檢索系統(tǒng)軟件等多種功能軟件的集合。為漢語史語料庫的建設(shè)作一些理論上的探討及實踐上的嘗試,為漢語史研究(特別是中古漢語史的研究),提供一個比較實用的操作平臺。2.在中古漢語語法體系、中古漢語詞匯系統(tǒng)、中古漢語語料庫建設(shè)理論研究方面有所突破,產(chǎn)生相關(guān)的指導(dǎo)性理論論著。3.研制出“中古漢語語料庫檢索系統(tǒng)”、 “中古漢語自動分詞系統(tǒng)”、“中古漢語詞義自動標注系統(tǒng)”“ 、“中古漢語異文發(fā)現(xiàn)軟件”等一系列相關(guān)軟件。

自項目開題至今(2011.4—2013.7),已經(jīng)經(jīng)過了兩年半時間,項目研究時間

(2010.12—2015.12)過半,我們嚴格按照原訂計劃,總體進展順利,目前已經(jīng)完成全部任務(wù)的三分之二(某些方面在原計劃的基礎(chǔ)上作了較大規(guī)模拓展)。具體表現(xiàn)在: 入庫語料至2013年9月8月底全部完成校勘(包括初校、終校),字數(shù)超過原來規(guī)劃的1000萬字(除原計劃1000萬字傳世文獻語料?比霂焱,根據(jù)專家建議,新增加了近100萬字出土文獻語料,同時,增加了繁體電子版佛經(jīng)語料7億多字,大大超過原庫量)。語料的人工深加工(分詞、語義、語法、文字標注)已經(jīng)完成145萬字(并經(jīng)三次復(fù)核),為自動分詞、標注軟件提供了可靠記憶樣本,目前已進入機器自動分詞、標注(再人工核對)階段,工作進度已大大加快!罢Z義庫”、“語法庫”、“異文庫”均已建成。?原來確定的兩個理論研究課題“中古漢語構(gòu)詞法與造詞法研究”、 “中古漢語語法體系研究”亦按計劃進行,目前已接近完成。同時,新增了“長沙走馬樓三國吳簡詞匯計量研究”、“漢魏石刻資料詞匯計量研究”兩個出土文獻詞匯研究的理論課題,目前順利進行。?語料庫的各種相關(guān)軟件(“中古漢語語料庫語料檢索系統(tǒng)”、“中古漢語自動分詞軟件”、“漢語自動語義標注軟件”、“ 版本異文自動發(fā)現(xiàn)軟件”)已經(jīng)自主研制開發(fā)成功,經(jīng)過反復(fù)運用調(diào)試,都已進入第三版,目前正實際運用中進一步完善提高。

四個子項目的具體進展情況如下:

(一)“深加工中古漢語語料庫語料鑒別與整理研究”子項目(負責人:方向東教授)

按照計劃書研究內(nèi)容和研究方法進行,將須入庫的中古語料先進行版本的確定和校勘,已完成《殷蕓小說》、《論衡》、《南齊書》、《宋書》、《梁書》、《抱樸子》、《三國志》、《世說新語》、《后漢書》、《齊民要術(shù)》、《水經(jīng)注》、《顏氏家訓(xùn)》、《北齊書》、《搜神記》、《列子》、《先秦漢魏晉南北朝詩》的版本調(diào)查工作,并撰寫了調(diào)查報告;采取課題組參與者分頭分工把關(guān)的原則,將確定的中古文獻語料分課題組成員?薄D壳巴瓿蛇M度如下:《后漢書》(179.4萬)《洛陽伽藍記》(5.7萬)《水經(jīng)注》(40萬)《神仙傳》(3.8萬)《魏書》(140萬)《幽明錄》《冥祥記》(合計8萬)《陳書》《周書》(合計51萬)《論衡校釋》(90萬)《三國志》(85萬)《北史》(44萬)《北齊書》(28萬)《南齊書》(35萬)《梁書》(35萬)《南史》(80萬)17部文獻語料共計914.9萬字,初校工作已于2012年8月份全部完成。

至2013年7月底,已完成終校的文獻是:《后漢書》(周燕飛初校,曹紅軍、謝秉洪教授負責終校),《洛陽伽藍記》《神仙傳》(李玉嬌、李慧娟初校,王鍔教授負責終校),《魏書》(魏慶彬初校,王鍔教授負責終校),《梁書》(景紅緯初校,王鍔教授負責終校),《南齊書》(顧言初校,方向東教授負責終校)《陳書》(李衛(wèi)衛(wèi)初校,方向東教授負責終校)《南史》(朱娜娜初校,方向東教授負責終校)《幽明錄》《冥祥記》(葉國盛初校,方向東教授負責終校),合計542.9萬字的終校工作完成。

即將完成的有:《三國志》(朱珠初校,謝秉洪教授負責終校),《論衡校釋》(蔡玉英初校,曹紅軍教授負責終校),《水經(jīng)注》(王勇初校,吳新江教授負責終校),《北齊書》(易雪丹初校,吳新江教授負責終校),《北史》(吳婷、申阜鑫、郭林初校,吳新江教授負責終校),《周書》(李衛(wèi)衛(wèi)初校,吳新江教授負責終校),合計323萬字。此項工作目前正利用暑假時間作最后沖刺,全部終校工作將在2013年8月底完成。

另外又增加100萬字的出土文獻語料(吐魯番文獻、長沙走馬樓三國吳簡、漢魏南北朝石刻資料),該項語料由“深加工中古漢語語料庫理論研究”子項目組成員負責錄入?,目前也已完成。

也即是說,至2013年8月底,該子項目的預(yù)定任務(wù)已經(jīng)圓滿完成,今后的工作是對將來臨時增加的語料進行?薄

(二)“深加工中古漢語語料庫建設(shè)研究”子項目(負責人:化振紅教授)

該子項目組自2012年年終檢查至今主要完成以下工作:

修訂義項庫(化振紅教授、汪祎博士):針對原有的中古詞語義項數(shù)據(jù)庫中收詞數(shù)量不足、義項不全、詞條和義項交叉、多義詞處理不當?shù)热毕,重新進行了校對、整理,截至目前,新修訂的義項庫詞條總數(shù)共483,432條,全部完成了人工校對工作并投入使用。(并結(jié)合“義項庫”的建設(shè),建立了《漢語大詞典》數(shù)據(jù)庫)

建立異體字、疑難字庫(趙家棟副教授):針對中古語料中極為普遍的特殊用字現(xiàn)象,建立了專門的中古漢語語料庫異體字數(shù)據(jù)庫,收入各體漢字3700個左右,基本解決了現(xiàn)階段語料切分、標注以及未來的詞語檢索過程中的字體轉(zhuǎn)換問題,部分解決了數(shù)據(jù)庫中疑難字的顯示問題。下一階段,將大量收入中古漢語疑難字,建立與系統(tǒng)檢索軟件完全匹配的中古漢語語料庫疑難字庫。兩個字庫繼續(xù)升級、最終合并之后,可望完全解決整個數(shù)據(jù)庫的檢索、顯示等問題。

語料標注(化振紅教授負責組織全體教師、博士):繼續(xù)進行了語料的人工切分、標注工作,提供了更多的人工切分、標注樣本。從2012年12月年檢截止目前,新增人工切分、標注樣本約59萬字,累計完成人工標注樣本145萬字左右。初步實現(xiàn)了改進后的義項庫、人工標注樣本與電腦切詞及標注軟件的對接,對程序軟件標注的語料樣本正在進行評估、調(diào)研,提高程序軟件切詞、標注的正確率,目前的切詞、標注的一次正確率達到75%左右,新一輪的調(diào)試正利用暑假緊張進行,9月初正式進入程序軟件操作為主、人工校對為輔的切詞、標注階段。屆時,語料切詞、標注進度將大大加快。

(三)“深加工中古漢語語料庫理論研究”子項目(負責人:黃 征教授)

該子項目包括四個理論研究課題及一個吐魯番出土文獻整理課題:

中古漢語構(gòu)詞法與造詞法研究(劉杰博士):該項研究的主要內(nèi)容包括適應(yīng)中文信息處理的中古漢語復(fù)音詞的鑒別與界定、構(gòu)成特點與生成特點、發(fā)展趨勢及計量研究等內(nèi)容。作為詞匯理論研究,與中古漢語語法體系的研究、語料的鑒別與整理、漢語史數(shù)據(jù)庫平臺建設(shè)等其它項目的研究是互補關(guān)系,幾個部分相互依托,共同推進。目前通過整理國內(nèi)近二十年來中古漢語復(fù)音詞研究的成果,對大量專書、專類詞匯研究著述中的復(fù)音詞的研究成果進行全面梳理和整理,對中古漢語復(fù)音詞進行了計量研究,已完成“中古漢語核心復(fù)音詞表”的整理編纂(近10000詞條)。服務(wù)于后續(xù)研究的需要。在收集整理中古復(fù)音詞的同時,對各家各類研究成果進行梳理,尤其是中古漢語復(fù)音詞的界定標準進行歸納分析,建立了一套能服務(wù)于語料庫建設(shè)需要的中古漢語復(fù)音詞的界定標準和“分詞”依據(jù)!爸泄艥h語的構(gòu)詞法”、“中古漢語的造詞法及新詞生成機制”這兩個問題正在研究。

中古漢語語法體系研究(胡靜書博士):通過對中古漢語的虛詞的收集整理,統(tǒng)計分析,目前已完成中古漢語語法體系——詞法體系的研究,句法體系研究正在進行。

長沙走馬樓三國吳簡詞匯計量研究(張學城副教授)該課題將走馬樓三國吳簡的全部釋文制作數(shù)據(jù)庫,利用數(shù)據(jù)庫生成引得,為詞匯計量研究提供條件。

文物出版社的釋文凝聚了很多學者的心血,具有很高的學術(shù)價值。但是由于簡文量大,人手有限,時間緊迫,錯誤在所難免。課題承擔者在原有釋文基礎(chǔ)上,核對已公布的相關(guān)竹簡照片,訂正了前人釋文中的一些錯誤,完成全部?变浫牍ぷ。并已完成吳簡(一)(二)冊的切詞、標注及數(shù)據(jù)庫的制作,其余(三)(四)冊的切詞、標注正在進行。

漢魏石刻資料詞匯計量研究(羅小如博士)該課題以毛遠明《漢魏六朝碑刻校注》(約69萬字)為基礎(chǔ),進一步搜集補充漢魏石刻資料,參照漢魏石刻拓片做好現(xiàn)有石刻釋文的校對整理,分別輸入電腦,這一階段的工作已經(jīng)完成。隨后分詞、標注,做成數(shù)據(jù)庫。然后利用數(shù)據(jù)庫進行專項詞匯計量研究。目前已完成10萬字左右的切詞、標注,并進入數(shù)據(jù)庫。其余部分將在2014年8月前完成。

“吐魯番出土文獻”數(shù)據(jù)庫(趙紅副教授)唐長孺主編的《吐魯番出土文書》第一冊集中公布了中古時期吐魯番出土文獻的圖版,本階段的主要工作集中在第一冊的資料精加工以及電子化處理方面。首先將前期工作中完成的錄文與出土文書圖版進行一一對照?,彌補和糾正了錄文中的缺失,提交語料庫入庫使用的錄文資料盡最大可能準確無誤。第二,將出版物的圖版用掃描、拍照等方法電子化處理,使異體字切分成為可能。第三,將已經(jīng)輯錄的異體字逐一用制圖軟件切分,制成各自獨立的字形圖片,同時錄入其所在文句,使字形與文句一一對照,避免了孤立字形缺乏例證的弊端,同時也為語料庫入庫分詞提供了完整的資料。目前,經(jīng)過精加工的錄文資料已經(jīng)提交入庫,進行分詞、標注等相關(guān)工作。電子化處理的字形圖片工作也已基本完成,《吐魯番文獻俗字典》亦已編纂完成,將遞交“異文庫”、“疑難字庫”。

(四)“深加工中古漢語語料庫系統(tǒng)平臺建設(shè)與研究”子項目(負責人:陳小荷教授)

2012年12月年檢至今,該子項目組主要工作如下:

“中古漢語語料庫語料檢索系統(tǒng)”軟件的改進升級(曲維光教授、付佳)。2012年上半年軟件第一版研制以后,進行了試運行,在試運行過程中,根據(jù)“語料庫建設(shè)”子項目組的意見建議,又進行了兩次改版升級,一方面進一步提升了軟件的運行速度,同時,又拓展了軟件的檢索功能(如:語料的時代分層、地域區(qū)分功能;相類語料的同頁面比對功能、網(wǎng)上互動功能等)目前“中古漢語語料庫檢索系統(tǒng)”已經(jīng)推出第三版,功能和性能已基本達到要求。

版本異文自動發(fā)現(xiàn)的研究(陳小荷教授),針對中古漢語語料改進了算法,速度更快、異文定位更加準確。

相關(guān)軟件的對接(李斌博士)。在項目建設(shè)實踐中,總結(jié)經(jīng)驗教訓(xùn),將“中古漢語自動語義標注軟件”與“中古漢語自動分詞軟件”有機結(jié)合,不僅通過形式區(qū)分進行自動分詞,而且通過語義鑒別進行自動分詞,有效提高了切詞的準確性(李斌博士)。

二、調(diào)查研究及學術(shù)交流情況

兩年半以來,本項目組圍繞項目的進展開展了一系列學術(shù)調(diào)研、文獻收集以

及學術(shù)交流活動。共邀請國內(nèi)專家前來進行學術(shù)講座場,本項目組成員應(yīng)邀外出進行學術(shù)講座4場,出席國際、國內(nèi)重要學術(shù)會議13人次。

(一)調(diào)研數(shù)據(jù)整理運用:

掃描版文獻檢索問題的調(diào)查研究(陳小荷教授)。對語料庫中的掃描版文獻直接進行檢索,目前美國已經(jīng)開始較多運用這一技術(shù)。在我們的語料庫中能否采用這一技術(shù),這關(guān)系到語料庫的質(zhì)量。子課題組負責人陳小荷教授對此進行了細致的調(diào)查了解,通過國內(nèi)外相關(guān)資料的研究,陳教授認為:從原理上說,掃描版文獻是無法直接檢索的,必須經(jīng)過字符識別和人工校對之后才能檢索。但是,檢索結(jié)果的呈現(xiàn)形式可以是掃描圖像。其中的奧秘就是將文本的段落、句子、詞或字符與它在掃描圖像中的位置聯(lián)系起來,檢索仍然在文本中進行(這一過程不讓用戶看見),但可通過位置映射將相應(yīng)的圖像呈現(xiàn)給用戶。例如,利用工具軟件DjvuToy,可以制作djvu電子書,進行字符識別、生成可檢索的隱藏文本。這一技術(shù)在語料檢索中很有價值。如果檢索結(jié)果以文本形式呈現(xiàn),用戶對其準確性和真實性是持謹慎態(tài)度的,往往還要去查閱掃描文獻或紙版本。檢索結(jié)果以圖像形式呈現(xiàn),用戶可以放心使用。即使字符識別可能有誤,也能夠直觀地在掃描圖像上反映出來;谶@樣的認識,我們目前正在在檢索系統(tǒng)上做這方面的實驗嘗試。

中古漢語語料自動切詞軟件準確率問題的調(diào)查研究(董志翹、化振紅教授)

目前古代漢語語料的自動切詞軟件研究的瓶頸是切詞準確率的問題,現(xiàn)代漢語語

料自動切詞軟件的準確率已經(jīng)可以達到95%以上,但古代漢語語料由于詞與非詞界限的模糊,自動切詞軟件的準確率一直不高(基本上在70%—80%間徘徊)。利用在韓國參加學術(shù)會議的機會,董志翹、化振紅教授與臺灣大學工程科學及海洋工程研究所杜正民、唐國銘教授、法鼓佛教學院洪正洲助理教授進行了會間個別交流,他們目前正參與法鼓佛教學院“中華電子佛典數(shù)據(jù)庫”的建設(shè),唐國銘教授的報告“運用佛經(jīng)音義語料建構(gòu)‘語意詞網(wǎng)’之研究——以《瑜伽師地論》為例”洪正洲助理教授的報告“以統(tǒng)計量化分析方式進行早期漢譯佛典之翻譯年代判斷與翻譯特征萃取”,對于我們漢語史語料庫的建設(shè)均有啟發(fā)。通過調(diào)查,他們研制的檢索系統(tǒng)的某些功能和自動分詞軟件研制方法(按文體分別制作自動切詞軟件提高分詞精確度的方法),很值得我們借鑒,為此互相建立了進一步交流協(xié)作的意向。目前我們已經(jīng)在進行按文體制作自動切詞軟件的嘗試。

(二)國內(nèi)外文獻資料的收集整理:

國外《經(jīng)律異相》資料的收集整理(董志翹教授)。語料庫中所收《經(jīng)律異相》是梁代寶唱所編的我國第一部佛教類書,資料價值非常高,但該書一直未有人整理。我們首次用國內(nèi)所能見到的八種重要藏經(jīng)本進行校勘整理,加上斷句、標點(94萬字,巴蜀書社2011年8月出版)。后經(jīng)董志翹教授與日本國際佛教大學院大學“日本古寫經(jīng)研究所”所長落合俊典教授聯(lián)系,在他的大力支持下,又查找到日本金剛寺、七寺、興圣寺三個寺院所藏《經(jīng)律異相》的三種古寫本,并全部復(fù)印寄贈。目前,我們正利用這些寶貴的材料對《經(jīng)律異相》作進一步?闭。

國內(nèi)漢魏六朝石刻資料的收集整理(董志翹教授、羅小如博士)語料庫中的中古出土石刻文獻,以前均散見各處,沒有一個比較完備的文本。我們了解到西南大學古籍所毛遠明教授新近剛出版《漢魏六朝碑刻校注》(全10冊,2008年線裝書局出版),這是迄今漢魏六朝碑刻資料收集最全面、整理最精審的著作。立即前往重慶與他當面協(xié)商,最后同意將該書收入語料庫。我們目前在該書的基礎(chǔ)上,又進一步搜集補充了一些漢魏石刻資料,并進行切詞、標注的深加工處理。

電子佛經(jīng)資料的收集整理(陳小荷教授)搜集了繁體電子版佛經(jīng)語料7億多字,并且對佛經(jīng)語料自動分詞方法進行了初步探索。語料包括大正藏、卐續(xù)藏、嘉興藏、趙城金藏、中華藏、房山石經(jīng)、高麗藏、乾隆藏、卍正藏、永樂北藏、洪武南藏等等(均已排除重復(fù)部分)。一種佛經(jīng)往往有多種譯本,例如《金剛經(jīng)》主要有姚秦時代的鳩摩羅什譯本、唐代玄奘譯本。有的甚至有梵漢對照,其中梵文詞語用漢字音譯,如《唐梵翻對字音般若波羅蜜多心經(jīng)》。這些語料對于研究佛經(jīng)詞匯發(fā)現(xiàn)和自動分詞以及中古音韻都是非常寶貴的資料。也大大充實了我們的語料庫。

(三)學術(shù)會議:

召開了重大招標項目開題論證會

2011年4月3日上午9時,在南京師范大學貴賓室召開了本項目的開題論證會。出席本次開題會的有國家級“有突出貢獻專家”、北京大學中文系博士生導(dǎo)師蔣紹愚教授,北京語言大學信息科學學院博士生導(dǎo)師宋柔教授,江蘇省哲學社會科學基金辦公室主任徐之順。南京師范大學副校長吳康寧教授,文學院院長朱曉進教授,社會科學處副處長秦國榮教授及課題組全體成員。項目首席專家董志翹教授全面系統(tǒng)地匯報了調(diào)整后課題的思路、研究路徑、研究項目的重難點等。蔣紹愚教授就課題的語料庫范圍、功能、來源文本選擇、語料分期、文本標注內(nèi)容等具體問題,和語料庫檢索平臺、平行知識庫、前期人工標注、后期計算機的學習等技術(shù)路線,提出自己的意見。宋柔教授結(jié)合自己多年從事現(xiàn)代漢語語料庫建構(gòu)與研究工作,也對語料庫標注的開放性、模糊性,尤其是文字形體難題等提出了建設(shè)性建議。課題組成員與相關(guān)專家學者進行了熱烈的溝通與交流,在現(xiàn)場提出了一些新的的設(shè)想

召開了重大招標項目專家咨詢會

2011年11月26日,在南京師范大學南山專家樓二樓第二會議室舉行本項目專家咨詢會。受邀的咨詢專家有湖南師范大學蔣冀騁教授、北京大學孫玉文教授、浙江大學張涌泉、汪維輝教授、復(fù)旦大學汪少華教授、廈門大學曾良教授、上海師范大學徐時儀教授7人(7位專家涵蓋中古漢語史研究中的文字、音韻、詞匯、語法等各個領(lǐng)域),與全體項目組成員對課題進展以及相關(guān)問題展開了熱烈討論,同時紛紛為項目出謀劃策,提出了不少寶貴的意見、建議。

召開了“深加工中古漢語語料庫”前期成果專家評估會

結(jié)合211學科建設(shè)評估,深加工中古漢語語料庫前期試運行部分(已有部分中古文獻經(jīng)加工后入庫試運行),2012年2月19日接受了由南京師范大學組織的專家組的評估,專家組由安徽大學古文字專家黃德寬教授、中國社會科學院計算語言學專家馮志偉研究員、廈門大學敦煌學專家曾良教授組成,專家組通過聽取項目組匯報、參觀語料庫演示,最終評語是:“課題組在語料庫加工應(yīng)用和軟硬件平臺建設(shè)方面,在中古漢語研究領(lǐng)域處于國內(nèi)領(lǐng)先。圍繞語料庫開展的相關(guān)理論研究成果,對中古漢語研究方面產(chǎn)生了積極影響。研究整理的中古漢語語料文本,得到學術(shù)界的高度評價。該課題成果具有較為廣泛的推廣價值,中古漢語典型語料庫和便捷的檢索方式,為漢語史及中古漢語提供了先進的研究與交流平臺!辫b定等第為“優(yōu)秀”。

(四)學術(shù)交流:

邀請外單位專家前來進行學術(shù)講座(9場)

2011年4月2日,項目組邀請北京語言大學博士生導(dǎo)師,計算語言學專家宋柔教授在南京師范大學國際教育學院報告廳作學術(shù)報告,報告的題目是“基于廣義話題的漢語文本結(jié)構(gòu)”

2011年4月2日,項目組邀請北京大學博士生導(dǎo)師、漢語史專家蔣紹愚教授作學術(shù)報告,報告的題目是“漢語史的學習和研究”

2011年11月15日,項目組邀請東北師范大學博士生導(dǎo)師,古文獻專家曹書杰教授作學術(shù)講座,講座題目:“考據(jù)學與漢語言文字研究”。

2011年11月26日,項目組邀請北京大學博士生導(dǎo)師孫玉文教授作學術(shù)講座,講座題目是:“揚雄《方言》折射出的秦漢方音”。

2011年11月26日,項目組邀請復(fù)旦大學出土文獻與古文字研究中心博士生導(dǎo)師,訓(xùn)詁學專家汪少華教授作學術(shù)講座,講座題目是:“訓(xùn)詁與考古研究成果利用”。

2011年11月27日,項目組邀請廈門大學博士生導(dǎo)師,敦煌學專家曾 良教授作學術(shù)講座,講座題目是:“”。

2011年11月27日,項目組邀請湖南師范大學博士生導(dǎo)師,漢語史專家蔣冀騁教授作學術(shù)講座,講座題目是:“語感與訓(xùn)詁”。

2012年2月17日,項目組邀請安徽大學博士生導(dǎo)師,古文字學專家黃德寬教授作學術(shù)講座,講座題目是:“關(guān)于清華簡《尹至》《尹誥》形成年代與性質(zhì)問題”。

2013年1月13日,項目組邀請上海師范大學博士生導(dǎo)師,音韻學專家潘悟云教授作學術(shù)講座,講座題目是“漢語語料庫檢索系統(tǒng)設(shè)計”。

本項目組成員應(yīng)邀外出進行學術(shù)講座(12場)

2011年10月14日,本項目首席專家董志翹教授應(yīng)邀在北京大學中文系作了“關(guān)于‘名量式’復(fù)合詞的幾個問題”的學術(shù)講座。

2011年9月15日,本項目子課題負責人黃征應(yīng)邀在西南大學漢語言文獻研究所,作了題為《敦煌語言文字學研究——敦煌俗語言學論綱》的學術(shù)講座。

2011年12月16日至18日,本項目首席專家董志翹教授應(yīng)邀在山東師范大學文學院、淮北師范大學文學院做了題為“回望與前瞻——新時期的漢語學習與應(yīng)用”的學術(shù)講座。

2012年9月17日,董志翹教授應(yīng)邀為南京信息工程大學作題為“知今必鑒古,無古不成今——從古代文獻中汲取科技創(chuàng)新的營養(yǎng)”講座。

2012年10月9日,董志翹教授應(yīng)邀為浙江外國語學院人文學院作題為“表示過程、持續(xù)狀態(tài)的‘中’及其來源”的學術(shù)講座。

2012年11月27日,董志翹教授應(yīng)邀為西南大學文學院作題為“關(guān)于漢語‘名量式’復(fù)合詞的幾個問題”的學術(shù)講座。

2012年11月28日,董志翹教授應(yīng)邀為重慶師范大學作題為“努力拓展學生視野,全面掌握古代漢語知識”的學術(shù)講座。

2012年11月29日,董志翹教授應(yīng)邀為四川外國語大學中文系作題為“略論漢語中的‘離合詞’”的學術(shù)講座。

2012年11月29日,董志翹教授應(yīng)邀為重慶師范大學文學院為研究生作“拓寬學術(shù)視野,全面掌握古代漢語知識”的報告。

2012年12月1日,董志翹教授應(yīng)邀為四川大學文學與新聞學院為研究生作“關(guān)于漢語名量式復(fù)合詞的幾個問題”的報告。

2013年3月24日,董志翹教授應(yīng)邀為陜西師范大學文學院為研究生作“佛教對中土取名命字的影響”的學術(shù)報告。

2013年4月15日,董志翹教授應(yīng)邀為武漢大學文學院為教師、研究生作“佛教對中土取名命字的影響”的學術(shù)報告。

本項目組成員出席國際、全國重要學術(shù)會議(30人次)

2011年5月6—9日,本項目首席專家董志翹教授出席清華大學百年校慶西

南瀕危文字文獻研討會,并主持會議發(fā)言。.

2011年8月12日,本項目組成員趙紅副教授出席由中國敦煌吐魯番學會等

單位主辦的“中國敦煌吐魯番學會理事會暨學術(shù)討論會”,并宣讀了論文“ 吐魯番出土文獻字詞零考”。

2011年8月20日—22日,本項目子課題負責人陳小荷教授及成員馮敏萱、

李斌、徐潤華博士出席在河南洛陽召開的全國第十一屆計算語言學學術(shù)會議(CNCCL-2011)并在會議上報告論文4篇。

2011年8月23—28日,本項目首席專家、中國訓(xùn)詁學研究會副會長董志翹

教授、本項目子課題負責人、中國訓(xùn)詁學研究會副秘書長方向東教授出席在成都召開的中國訓(xùn)詁學研究會及西南交通大學主辦的“2011年海峽兩岸文獻與方言研究學術(shù)研討會”報告了論文,董志翹教授作大會學術(shù)總結(jié)。

2011年12月4日至5日,本項目子課題負責人陳小荷教授及課題組成員曲

維光教授出席了在北京召開的中國中文信息學會第七屆全國代表大會暨學會成立三十周年學術(shù)會議,陳小荷繼續(xù)當選為理事。

2012年4月20日—24日,本項目首席專家董志翹教授出席由中國社會科學

院語言研究所、湖南師范大學文學院主辦的“第八屆中古漢語國際學術(shù)研討會”,并作大會主題報告“關(guān)于“見2V”句中“見”的詞性及功能”。本項目成員趙家棟副教授出席會議,并宣讀論文“《經(jīng)律異相》校讀札記”。

2012年4月27日—28日,本項目子課題負責人陳小荷教授作為教育部語信

司推薦的專家出席在廣西南寧召開的聯(lián)合國教科文組織第十三屆國際母語日研討會,在研討會上作了“關(guān)于漢語方言信息處理”的報告。

2012年5月25日,本項目子課題負責人黃征教授出席在日本東京召開的“第

57回東方學會的國際研討會”,并作了題為“中國愿文與日本愿文比較研究”的大會報告。

2012年8月15日,項目組成員胡靜書講師出席了由中國社會科學院語言研

究所主辦的中國語言學會第十六屆學術(shù)年會,提交和宣讀論文“害怕義到情態(tài)義:一個反復(fù)出現(xiàn)的詞義演變現(xiàn)象”。與會期間,調(diào)查了與中古漢語語法體系有關(guān)的研究動態(tài)和成果,也咨詢了相關(guān)專家學者,本課題研究的價值和重要性得到同行專家的肯定,同時也獲得了對語法體系研究有益的意見和建議。

2012年9月10日,子項目負責人方向東教授出席在河南師范大學召開的“中

國歷史文獻研究會第33屆年會”,同時了解文獻古籍數(shù)字化的相關(guān)信息和建設(shè)情況。

2012年10月8日—10日,本項目首席專家董志翹教授出席中國訓(xùn)詁學研究

會在浙江大學召開的學術(shù)年會,在會上作“日本的中古漢語詞匯研究”的主題報告。并再次當選中國訓(xùn)詁學研究會副會長。子項目負責人方向東教授亦出席會議,當選為中國訓(xùn)詁學會常務(wù)理事。項目組成員趙家棟副教授同時出席會議,宣讀論文“敦煌寫卷丑婦賦字詞校讀札記”。

2012年10月12日—16日,董志翹教授出席韓國交通大學(忠州)主辦的

“佛教文獻研究暨第六屆佛經(jīng)語言學國際學術(shù)研討會”,在會上作“佛教類書《經(jīng)律異相》的語料價值”的主題報告,并主持分組學術(shù)會議。子項目負責人化振紅教授同時出席會議。

2012年10月19日—21日,董志翹教授出席在揚州大學召開的國際漢語史研究會暨第十一屆全國古代漢語學術(shù)研討會,在會上作 “努力拓展學生視野,全面掌握古代漢語知識”的主題報告。

2012年10月25日—28日,董志翹教授出席在江蘇師范大學召開的“當代語言科學創(chuàng)新與發(fā)展國際學術(shù)研討會暨《語言科學》創(chuàng)刊十周年慶典”,在會上作“加強漢語史語料庫建設(shè),促進漢語史研究的現(xiàn)代化”學術(shù)報告,具體介紹了本項目建設(shè)目標、具體功能以及目前進展情況,引起與會者的關(guān)注并給予高度評價。

2012年10月30日—11月4日,項目組成員趙家棟副教授、胡靜書講師出席在安徽師范大學召開的“近代漢語學術(shù)研討會”,趙家棟在會上宣讀論文“敦煌文獻疑難字詞考辨五則”,胡靜書在會上宣讀了論文“論‘勿’的沒有義用法”。并在會上介紹了本項目的進展情況,與相關(guān)與會者交流了經(jīng)驗。

2012年11月5日,項目組成員趙紅副教授出席了在徐州召開的“江蘇省語言學學術(shù)年會”,在會上宣讀了論文“基于中古漢語語料庫建設(shè)的若干思考”,論文提出,中古漢語熟語料庫建設(shè)不能僅僅滿足于古文獻的收錄,還應(yīng)該保留普遍存在于傳世文獻和出土文獻當中的諸多異文,實現(xiàn)異文自動檢索、自動發(fā)現(xiàn)。針對吐魯番出土文獻眾多的異體字,還應(yīng)通過鏈接等技術(shù)手段保留原字形,進行考釋意見的標注關(guān)聯(lián)及文字屬性的標注。通過采用通用置標語言,實現(xiàn)語料共享,避免重復(fù)建設(shè)而產(chǎn)生的資源浪費。該論文引起了與會學者的較大興趣。學者們紛紛肯定了語料庫建設(shè)的重要價值,同時也對感興趣的問題進行了咨詢,并提出了建議;一些目前正在進行相關(guān)研究以及準備進行相關(guān)研究的學者們還與論文作者在會下進行了熱烈的討論。

2012年12月6日——12日,董志翹教授出席“古代東亞諸國變格漢文研究”國際學術(shù)研討會(日本東京駒澤大學),在會上作“唐宋時期來華日本僧人著述中的變格漢文”的主題報告。

2013年3月22日—3月25日,董志翹教授出席“命名學首屆國際學術(shù)會”

(陜西省國際文化經(jīng)濟交流中心、西安武警工程學院主辦),任華東組組長,作“佛教對中土取名命字的影響”的學術(shù)報告。

2013年4月12日—4月15日,出席“《漢語大詞典》第二版修訂會議”(上

海漢語大詞典編纂處、辭書出版社主辦,武漢大學文學院承辦),在會上作“《漢語大詞典》(第二版)修訂方案讀后”的報告,

2013年 7 月 10-14 日,在山東煙臺出席“《漢語大詞典》第二版修訂工作

會議”(《漢語大詞典編纂處、上海辭書出版社主辦,魯東大學承辦),在會上作“中中古漢語研究語料庫與《漢語大詞典》(第二版)修訂”的報告。

(五)國際交流:

2012年1月始,項目首席專家董志翹教授應(yīng)邀參加日本東京駒澤大學佛教研究所主持的國際合作項目“東亞諸國漢語變格研究”的研究工作,該項目由日本國文部省立項,2012年——2015年,項目組由5名日本學者、1名中國學者、2名韓國學者組成。中、日、韓三國語言接觸的研究對于漢語史研究將是一個很大的促進。項目研究期間,每年赴日本1-2次進行共同研究。

三、成果宣傳推介情況

(一)尚未舉行專門的成果發(fā)布會。但多次在國際、全國學術(shù)會議上介紹推薦過本項目成果(見前參加學術(shù)會議部分)在南京師范大學召開的“深加工中古漢語語料庫”前期成果專家評估會上,本項目前期成果也作了宣傳介紹、演示。

(二)2011年上半年、下半年分別向國家社科基金辦、省社科基金辦報送了《工作簡報》(一)(二)兩期,2012年(三)(四)兩期《工作》簡報材料都已準備好,但6月份適遇年中檢查,項目研究進展情況均通過填表形式報送;12月份又遇年終檢查,項目研究進展情況又通過填表形式報送。2013年上半年的《工作簡報》正準備編集,又要進行項目中期評估,項目研究進展情況又只能通過填表報送。(因為《工作簡報》內(nèi)容基本與檢查、評估表相同,如果另外再印一份《簡報》,不僅浪費,也給相關(guān)部門增加負擔。我們是這樣理解的。)

(三)2012年9月,本項目首席專家董志翹教授接受了《中國社會科學報》

記者聞錚的書面采訪,對于漢語語料庫建設(shè)的意義以及高校將重大研究項目的進行與人才培養(yǎng)緊密結(jié)合的做法作了闡述(分六個方面形成5000多字的文章交稿),相關(guān)內(nèi)容見《中國社會科學報》2012年9月20日“社科基金?蔽恼隆按蛟煨畔r代的學術(shù)利器——近年來國家社科基金資助數(shù)據(jù)庫建設(shè)與研究進展”: “引領(lǐng)人文社科新發(fā)展: 數(shù)據(jù)庫技術(shù)的誕生和發(fā)展不僅帶來了計算機信息管理的巨大革命,而且給人文社會科學發(fā)展注入了新的活力,有力促進了現(xiàn)代學術(shù)體系和研究范式的建立。在社會科學領(lǐng)域,數(shù)據(jù)庫在經(jīng)濟學、人口學、社會學等學科領(lǐng)域的重要作用已是顯見的事實;在文史哲等人文科學領(lǐng)域,加快文獻數(shù)字化、推動研究型資料庫建設(shè)的重要性、緊迫性也已成為學界共識;谶@一背景,加大資料庫建設(shè)支持力度、推進學科信息化基礎(chǔ)建設(shè)就成為國家社科基金立項資助的重要考量。

以語言學為例,僅2010—2011年就有4個重大項目涉及資料庫建設(shè)與研究,涵蓋從漢語史語料庫到民族語言語法標注文本,從出土古文獻語料庫到英漢平行語料庫等不同研究領(lǐng)域,體現(xiàn)了語言學研究的最新進展和前沿趨勢。正如“漢語史語料庫建設(shè)研究”項目首席專家、南京師范大學教授董志翹所言,語料庫建設(shè)是為語言學、文獻學、辭書編纂學的深入系統(tǒng)研究服務(wù)的一項基礎(chǔ)建設(shè),而語料庫語言學則是當前語言研究的主流。據(jù)他介紹,目前國內(nèi)已建成的語料庫中,現(xiàn)代漢語語料庫占80%以上,且多為生語料庫。因此,國家社科基金項目對中古漢語、出土古文獻的語料庫建設(shè)在很大程度上具有填補空白的意義。”

因為《中國社會科學報》是采取綜合報道形式,所以,董志翹教授所撰“加強漢語史語料庫建設(shè),促進漢語史研究手段的現(xiàn)代化”一文由《西南大學學報》全文發(fā)表。 

代表性成果:

1. 自主開發(fā)研制成功“中古漢語語料庫綜合檢索系統(tǒng)(第三版)”(曲維光教授、付佳博士):該系統(tǒng)在VS2010平臺上開發(fā),編程語言C#,數(shù)據(jù)庫是Sql Server 2008.系統(tǒng)主要包括以下幾個功能模塊:

不帶義項的查詢,根據(jù)書名、詞、詞類、語法功能等條件進行查詢。

帶義項的查詢, 根據(jù)書名、詞、義項、詞類、語法功能等條件進行查詢。

書籍對比查詢,先選定兩本要比較的書籍,然后根據(jù)詞、詞類、語法功能等條件進行查詢,查詢結(jié)果以對比形式呈現(xiàn)。

字詞組合查詢,允許查詢條件中出現(xiàn)若干個字詞的邏輯組合(與、或、非)。

疑難字查詢,輸入疑難字編號,輸出對應(yīng)的疑難字圖片。

語料庫建設(shè)者與語料庫使用者互動平臺。

2.版本異文自動發(fā)現(xiàn)的研究(陳小荷教授),針對中古漢語語料改進了算法,速度更快、異文定位更加準確。這種新穎的版本異文發(fā)現(xiàn)算法的基本思想是通過“同文”搜索為異文發(fā)現(xiàn)提供可靠的錨點序列,然后在在兩錨點之間的未匹配文本中查找異文。新算法的特點是:用PAT數(shù)組作為索引結(jié)構(gòu)以加快同文搜索的速度;用全局雙序列比對算法準確定位異文。我們用這個算法處理《論衡》的兩個電子版本各20萬字,在普通臺式機上僅用546毫秒即處理完畢,發(fā)現(xiàn)異文1929種、7390次,無一遺漏。論文《同文搜索與序列比對相結(jié)合的版本異文發(fā)現(xiàn)算法》已投稿。

3.中古漢語語料庫為《漢語大詞典》(第二版)修訂作出貢獻。2012年12月10日,國家重大文化工程《漢語大詞典》(第二版)編輯出版啟動大會在北京人民大會堂召開。全國人大副委員長、《漢語大詞典》(第二版)主編華建敏,新聞出版總署署長、《漢語大詞典》(第二版)工委會主任柳斌杰,教育部副部長、國家語委主任、《漢語大詞典》(第二版)工委會副主任李衛(wèi)紅,中共上海市委常委、宣傳部長、《漢語大詞典》(第二版)工委會副主任楊震武出席會議并講話,《漢語大詞典》(第二版)學術(shù)顧問委員會、編纂委員會的專家學者出席會議。

本項目首席專家董志翹應(yīng)邀擔任編纂委員及分冊主編。在2013年4月12日武漢召開的“《漢語大詞典》(第二版)編纂出版學術(shù)研討會”上,董志翹作了長篇發(fā)言,指出:“《漢語大詞典》(第一版)在收詞、分項、釋義、引證方面存在的最大問題是較少利用中古漢語、近代漢語及出土文獻材料。而近30年來,中古、近代漢語及出土文獻語言研究成果大量涌現(xiàn),必須廣泛收集,合理利用。同時,要與時俱進,在編纂方法手段上要有突破,要充分運用現(xiàn)代計算機、互聯(lián)網(wǎng)和語料庫技術(shù),特別是要充分調(diào)查和利用《漢語大詞典》(第一版)有關(guān)數(shù)據(jù)庫,來提高第二版編纂工作的質(zhì)量和進度。而我們目前承擔的國家社科重大招標項目“漢語史語料庫建設(shè)研究”,已經(jīng)研制了《漢語大詞典》(第一版)全文數(shù)據(jù)庫,同時目前在建的中古漢語語料庫正可以為《漢語大詞典》(第二版)的編纂提供有力支撐!边@一意見得到了與會領(lǐng)導(dǎo)與主編人員的高度重視。

2013年7月10日,董志翹教授作為主編特別提名的中古漢語專家應(yīng)邀出席在山東煙臺召開的“《漢語大詞典》(第二版)編纂出版工作會議”,具體討論了利用我們重大招標項目階段成果為《漢語大詞典》(第二版)編纂工作服務(wù)的相關(guān)問題。目前,我們已經(jīng)為《漢語大詞典》(第二版)提供了中古漢語核心復(fù)音詞詞表(10000詞條),并通過通過正在建設(shè)的漢語史語料庫的調(diào)查分析,提出建議增收中古漢語新詞條5040條,提供相關(guān)釋義、書證材料110萬字。我們研制的《漢語大詞典》(第一版)全文數(shù)據(jù)庫,也將為第一版的相關(guān)問題的核查、研究提供快捷準確的手段。同時,在具體修訂編寫過程中,我們的漢語史語料庫還將發(fā)揮更大的作用。

4.董志翹教授結(jié)合本項目研究所指導(dǎo)的兩篇博士論文(2012屆周超《(劉)宋詩詞匯研究》、2013屆張俊之《二王雜帖詞匯研究》)通過制作《(劉)宋詩》、《二王雜帖》數(shù)據(jù)庫,采用計量詞匯研究的方法進行,因材料扎實,方法得當,頗多創(chuàng)新,均順利通過答辯,獲得“優(yōu)秀”等級。

階段性成果清單:

序號

成果名稱

作者

成果

形式

刊物、出版社名稱及刊發(fā)、出版時間

字數(shù)

轉(zhuǎn)載、引用、獲獎等情況

1

同源詞研究與漢語辭書編纂

董志翹

論文

《語言研究》2010年1期

1.2萬

2012年10月獲江蘇省社科優(yōu)秀成果二等獎

2

敦煌寫本《啟顏錄》箋注

董志翹

論文

《西南民族大學學報》2012年3期

1萬

CSSCI收錄,下載頻次61

3

逯欽立《先秦漢魏晉南北朝詩》校釋舉誤

周  超

論文

《圖書館理論與實踐》2012年4期

0.6萬

CSSCI收錄,載頻次30

4

敦煌詩歌語詞釋證

趙家棟

董志翹

論文

《貴州師范大學學報》2012年1期

0.6萬

CSSCI收錄,下載頻次69

5

敦煌文獻中并不存在量詞“笙”

趙家棟

董志翹

論文

《語言科學》

2012年第4期

0.5萬

CSSCI收錄,下載頻次22

6

《經(jīng)律異相》(5-11卷)校讀札記

趙家棟

董志翹

論文

《南京師范大學文學院學報》

2012年第3期

0.4萬

CSSCI收錄,下載頻次4

7

敦煌碑銘贊語詞釋證

趙家棟

論文

《敦煌研究》

2012年第4期

0.6萬

 

8

唐代佛寺所在考異二則

趙家棟

付義琴

論文

《湖南科技大學學報》2012年1期

0.4萬

下載頻次32

9

從語法史角度看“一元動詞帶賓句”現(xiàn)象

付義琴

論文

《外語學刊》2012年2期

0.45萬

CSSCI收錄,下載頻次32

10

賓語前數(shù)量詞隱現(xiàn)的篇章分析

付義琴

趙家棟

論文

《華文教學與研究》2012年第3期

0.6萬

CSSCI收錄

11

二王雜帖釋文訂正四例

張俊之

論文

《東岳論叢》

2012年4期

0.4萬

CSSCI收錄,下載頻次22

12

“憂”是傷心事嗎

張俊之

論文

《語文建設(shè)》

2012年6期

0.4萬

CSSCI收錄,下載頻次32

13

南北朝時期漢語詞匯的南北差異研究

李  麗

論文

《西南交通大學學報》

2012年4期

0.6萬

CSSCI收錄,下載頻次12

14

《〈大字典〉疑難字考辨六則》

趙家棟

論文

《漢字文化》

2012年2期

0.15萬

CSSCI收錄

下載頻次9

15

Analysis of the Diffusion Process of Buddhist Vocabulary from Memoirs of Eminent Monks

化振紅

論文

Cross-Cultural Communication

Vol.8,No.5,2012

0.8萬

 

16

經(jīng)典古籍注疏文獻的知識網(wǎng)絡(luò)研究與設(shè)計

馬創(chuàng)新

陳小荷

曲維光

論文

圖書情報工作

第57卷第9期

2013年5月《

0.9萬

 

17

基于學科本體的訓(xùn)詁學知識組織體系初步構(gòu)建

馬創(chuàng)新

陳小荷

論文

圖書情報工作》

第57卷第12期

2013年6月

0.9萬

 

16

加強漢語史語料庫建設(shè),促進漢語史研究手段的現(xiàn)代化

董志翹

論文

《西南大學學報》2013年待發(fā)

1萬

CSSCI收錄

17

深加工中古漢語語料庫建設(shè)若干問題的思考

化振紅

汪  祎

論文

《西南大學學報》2013年待發(fā)

0.8萬

CSSCI收錄

18

同文搜索與序列比對相結(jié)合的異文發(fā)現(xiàn)算法

陳小荷

論文

《西南大學學報》2013年待發(fā)

0.7萬

CSSCI收錄

19

從信息處理角度考察察各類中古漢語語料的特點

陳小荷

研究報告

 

0.24萬

 

20

中古漢語語料檢索系統(tǒng)(第二版)

曲維光

付  佳

研究報告

軟件

 

0.4萬

 

21

詞性標注研究

馮敏萱

徐潤華

研究報告

 

0.48萬

 

22

中古漢語自動分詞訓(xùn)練庫簡要說明

梁社會

研究報告

 

0.11萬

 

23

中古漢語自動分詞軟件(升級版)

李  斌

軟件

 

 

 

(課題組供稿)
(責編:趙晶)
瓦房店市| 洮南市| 保康县| 阳谷县| 洱源县| 哈巴河县| 绥芬河市| 古蔺县| 洪江市| 开原市| 雷州市| 绥阳县| 肥城市| 邻水| 遵义县| 临漳县| 喀什市| 日喀则市| 禹州市| 芦溪县| 江城| 清水河县| 吉木乃县| 潜江市| 苏尼特右旗| 八宿县| 河北省| 秀山| 合川市| 南江县| 屯门区| 新干县| 保德县| 唐海县| 陇川县| 米林县| 武功县| 延津县| 军事| 宁武县|