一、 研究進(jìn)展情況
1、課題開題與子課題進(jìn)展情況
按照項(xiàng)目書的整體研究計(jì)劃,針對具體的研究問題,現(xiàn)就項(xiàng)目的整體進(jìn)行情況匯報(bào)如下。首先,完成了《毛詩引得》、《春秋引得》、《春秋左傳引得》、《春秋公羊傳引得》、《春秋谷梁傳引得》五部經(jīng)書的全部文本的數(shù)字化,并制定了針對《漢學(xué)引得叢刊》特刊文本數(shù)字化的規(guī)范。完成了《史記及注釋綜合引得》《漢書及補(bǔ)注綜合引得》《后漢書及注釋綜合引得》和《三國志及裴注綜合引得》前四史的引得詞頭的錄入,初步完成了《四十七種宋代傳記綜合引得》《遼金元傳記三十種綜合引得》所涉及到的人物的姓名、字號的文本數(shù)字化。其次,基于四部經(jīng)書的數(shù)字化文本,制定了涵蓋春秋以前的社會(huì)、經(jīng)濟(jì)、政治和文化的詞匯底表,并對底表中的人名、地名和時(shí)間實(shí)體進(jìn)行了標(biāo)注;凇睹娨谩返念I(lǐng)域知識(shí)、《春秋經(jīng)傳引得》的詞匯分布特征,基于條件隨機(jī)產(chǎn),構(gòu)建了自動(dòng)分詞、詞性標(biāo)記和自動(dòng)斷句的自動(dòng)模型。再次,在所制定的《春秋經(jīng)傳引得》詞匯底表基礎(chǔ)上,篩選出實(shí)體和非實(shí)體詞匯,并圍繞非實(shí)體詞匯,確定不同詞匯的義項(xiàng),為構(gòu)建周遍型和引得的典籍知識(shí)庫奠定基礎(chǔ)。又次,結(jié)合對64種81冊《漢學(xué)引得叢刊》的分析,從學(xué)理上對哈佛燕京學(xué)社引得編纂處的成員和哈佛燕京學(xué)社引得編纂處的成立與索引貢獻(xiàn)進(jìn)行了系統(tǒng)而全面的分析與探究。對引得序言的文本數(shù)字化進(jìn)行了實(shí)驗(yàn)性的探究。系統(tǒng)調(diào)研了《引書》的研究狀況,分析了《漢學(xué)引得叢刊》中引書的整體分布狀況,擬定了《引書》文本數(shù)字化的初步框架。最后,結(jié)合《春秋經(jīng)傳引得》詞匯底表,對春秋以前時(shí)期的詞匯分布狀況進(jìn)行了分析。結(jié)合八部先秦典籍文獻(xiàn),探究了支持向量機(jī)在先秦典籍分類上的整體性能,為后續(xù)人文計(jì)算使用自動(dòng)分類模型打下了基礎(chǔ)。
在上述計(jì)劃總體執(zhí)行情況的基礎(chǔ)上,各子課題具體執(zhí)行情況如下。
一、《漢學(xué)引得叢刊》的數(shù)字化方面
以《春秋左傳引得》《春秋公羊傳引得》《春秋谷梁傳引得》為典型代表案例,對《漢學(xué)引得叢刊》的數(shù)字化方式、過程進(jìn)行了探究。
(一)詞頭的錄入與校對
將《春秋經(jīng)傳引得》中出現(xiàn)的詞頭以及子詞頭進(jìn)行逐字地手動(dòng)錄入生成相應(yīng)的文檔。有的詞頭有多種含義,不管是名詞,動(dòng)詞,形容詞都不做區(qū)分。但如果這個(gè)詞頭為特殊名詞,則在相應(yīng)的詞頭項(xiàng)后面添加該詞頭的特殊釋義,并按照《引得》中出現(xiàn)的將其特殊釋義用括號表示,這里的括號采用的是中文字符,例如:“心、心(星名)”,前一個(gè)“心”在一般釋義為“心肺”或者“心意”。后一個(gè)“心”則為“星宿名”。此外,還有一些詞頭后括“參”表示方式一般用于兩種情況:
1.一人有多種稱呼,例如:
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
“宋襄公”在經(jīng)傳文中有“大子慈父”,“襄公”,“宋子”,“宋公”,“宋公慈父”五種稱呼。
2.多人一種稱呼,例如:
文伯(晉,參:士文伯)
文伯(晉,參:荀躒)
文伯(魯,參:穀)
“文伯”在經(jīng)傳文中不同的地方所指代的人物不同,前面的兩個(gè)“文伯”指“晉”國的“士文伯”和“荀躒”,后面的“文伯”指 “魯”國的“穀”。以上含括號的詞頭,在錄入時(shí)為了便于區(qū)分將括號及其內(nèi)容一并錄入。
為了確保錄入的準(zhǔn)確性,使用第二批人進(jìn)行了二次的人工校對,對有存疑的字詞頭進(jìn)行多方討論進(jìn)行最后的判定。對于一些常見字的錯(cuò)誤進(jìn)行了總結(jié)和統(tǒng)一替換。對于多數(shù)繁體字不認(rèn)識(shí)或者無法通過拼音錄入的情況,制定了相應(yīng)的技術(shù)方案,解決了錄入問題。
(二)正文的獲取與校對
《春秋》三傳的主要由四部分組成:《春秋》《公羊傳》《谷梁傳》《左傳》。首先通過技術(shù)手段將《春秋》三傳的正文全部數(shù)字化,成為《春秋》三傳的電子版,再根據(jù)《春秋經(jīng)傳引得》的正文順序?qū)θ齻鬟M(jìn)行了合并。經(jīng)過人工的合并獲得了與《春秋經(jīng)傳引得》格式相同的電子版正文。通過閱讀發(fā)現(xiàn),電子版的正文與洪業(yè)先生所使用的正文存在大量的字詞差異。因此,在第一遍校對的基礎(chǔ)上進(jìn)行了字的校對,以《春秋經(jīng)傳引得》為基準(zhǔn),對電子版中不一致的地方進(jìn)行更改。例如:電子版中繁體的“為”取“為”,而引得中作“爲(wèi)”,所以可以全部替換為“爲(wèi)”,“為”作部首的也改為“爲(wèi)”,“偽”作“僞”,“蒍”作“蔿”。在電子版中還添加了頁碼信息,根據(jù)《引得》在電子版的正文中在每一頁結(jié)尾字的后面添加了頁碼用[num]的形式表示。此外,將引得的腳注信息也人工錄入,將有腳注的字詞用()括起來,添加相應(yīng)的編號,在另一文檔中記錄腳注內(nèi)容。例如:“63-4 一本輟上有而字下同”表示第63頁的編號為4的腳注內(nèi)容。
為了確保利用計(jì)算機(jī)程序自動(dòng)生成語境的準(zhǔn)確性,根據(jù)《春秋經(jīng)傳引得》對電子版的斷句進(jìn)行了校對。若電子版與《引得》的斷句位置一致,則保留電子版的標(biāo)點(diǎn)符號。若不一致則添加“/”或者刪除標(biāo)點(diǎn)。此外,“、”不作為斷句標(biāo)識(shí),則保留。在春秋經(jīng)傳引得正文中作為斷句的符號有:“,”,“。”,“:”,“?”,“/(校對過程中加的斷句標(biāo)識(shí))”,不作為斷句符號有:“、”,“「”,“」”,“《”,“》”,“『”,“』”,“<”,“>”。
(三)語境的生成與校對
根據(jù)校對完成的電子版正文和先前錄入的電子版詞頭,使用計(jì)算機(jī)程序進(jìn)行自動(dòng)生成語境。程序自動(dòng)生成的語境可能存在錯(cuò)誤匹配,我們通過人工的對每個(gè)詞頭下的每條語境進(jìn)行校對,確保詞頭下的語境匹配完全正確。在抽取語境前將括號及其特殊釋義刪除,校對語境時(shí)邊校對邊添加,這樣重新生成了一份完整詞頭下的語境。在校對語境時(shí)我們使用“互參驗(yàn)證”的方法將詞頭、《引得》、校對后的全文以及自動(dòng)匹配的語境結(jié)合起來進(jìn)行校對。具體實(shí)施步驟如下:
圖1 語境校對整個(gè)作業(yè)流程圖
最后,根據(jù)校對完的語境,將他們的詞頭(含人工再次添加的特殊釋義)再次抽取出來與原詞頭進(jìn)行對比,檢查原詞頭和語境中詞頭是否一致。這次校對主要是提高詞頭后括號中的特殊釋義是否正確。通過檢查發(fā)現(xiàn)原詞頭和語境錄入的詞頭存在大量的不一致,這種不一致主要有兩種情況:一是詞頭主體錯(cuò)誤,這種錯(cuò)誤主要發(fā)生在一些沒有語境的異體字上。比如“鸞”、“?”、“竈”這種筆畫多結(jié)構(gòu)復(fù)雜的字。還有部分字的簡繁混用情況,如“別”統(tǒng)一改為 “別”,“衛(wèi)”統(tǒng)一改為 “衞”等。第二種不一致情況出現(xiàn)在詞頭后括號中的釋義上。通過將不一致的詞頭重新確認(rèn)后確定最終版本的詞頭。
基于上述整個(gè)過程,本子課題完成了對《春秋經(jīng)傳引得》的文本數(shù)字化,形成了針對《漢學(xué)引得叢刊》數(shù)字化的基本操作規(guī)范,并在該規(guī)范的基礎(chǔ)上, 完成了對《毛詩引得》、《史記及注釋綜合引得》、《漢書及補(bǔ)注綜合引得》、《后漢書及注釋綜合引得》和《三國志及裴注綜合引得》、《四十七種宋代傳記綜合引得》和《遼金元傳記三十種綜合引得》的全文本、詞頭的數(shù)字化。
二、面向《漢學(xué)引得叢刊》基本素材庫的多層級標(biāo)注方面
首先,本文利用機(jī)器學(xué)習(xí)的方法對手工分詞的《詩經(jīng)》語料進(jìn)行模型訓(xùn)練,并引入《漢學(xué)引得叢刊》中的《毛詩引得》領(lǐng)域詞表對測試效果最佳的訓(xùn)練模板封閉測試后得到的分詞結(jié)果進(jìn)行長詞校正,構(gòu)建了針對《詩經(jīng)》的自動(dòng)分詞模型和語料庫,具體實(shí)現(xiàn)流程如圖2所示。
圖2 《詩經(jīng)》自動(dòng)分詞流程
根據(jù)訓(xùn)練語料特性,結(jié)合《廣韻》字表,利用統(tǒng)計(jì)分析的方法構(gòu)建特征模板,采用條件隨機(jī)場(CRFs)的機(jī)器學(xué)習(xí)方法搭建《詩經(jīng)》的自動(dòng)分詞模型,并對不同特征組合下的分詞模型采用準(zhǔn)確率、召回率、調(diào)和平均值指標(biāo)進(jìn)行性能測試,從而完成自動(dòng)分詞模型的構(gòu)建。其次,選取《尚書》《禮記》《周禮》《孝經(jīng)》《詩經(jīng)》《周易》《論語》《孟子》等8本典籍,在制定的形容詞、擬聲詞、連詞、時(shí)間詞、副詞、助詞、方位詞、動(dòng)詞、詞綴、使動(dòng)用法、兼詞、為動(dòng)用法、數(shù)詞、意動(dòng)用法、普通名詞、標(biāo)點(diǎn)、人名、其他語素或字、地名、語氣詞、專名、形容詞作狀語、介詞 、名詞作狀語、量詞、動(dòng)詞作狀語、代詞等詞性規(guī)范集合的基礎(chǔ)上,結(jié)合單字詞及其詞性、多字詞的首尾字及其詞性特征、詞語長度、讀音等特征,利用條件隨機(jī)場模型完成面向先秦典籍的詞性自動(dòng)標(biāo)注模型構(gòu)建,其中基于組合特征模板的的詞性標(biāo)注模型調(diào)和平均值F能達(dá)到了94.79%,為后續(xù)展開大規(guī)模的先秦典籍詞性自動(dòng)標(biāo)記奠定了堅(jiān)實(shí)的基礎(chǔ)。針對《春秋經(jīng)傳引得》經(jīng)過精加工的四部典籍?dāng)?shù)字化文本,根據(jù)語境加工過程當(dāng)中對句讀的處理,在統(tǒng)計(jì)的基礎(chǔ)上人工分析句法的分布情況,并統(tǒng)計(jì)小句的長度、小句首字、首詞、尾字、尾詞的具體分布,構(gòu)建面向《春秋經(jīng)傳引得》的句讀分布特征。把每一個(gè)小句看成一個(gè)序列,把對句讀分類的問題轉(zhuǎn)化為序列化識(shí)別的問題,基于條件隨機(jī)場,構(gòu)建了面向《春秋經(jīng)傳引得》的句讀自動(dòng)判定模型,并把該模型推廣應(yīng)用到其他典籍語料上。
三、《漢學(xué)引得叢刊》典籍知識(shí)庫構(gòu)建方面
首先,典籍知識(shí)庫當(dāng)中最重要的構(gòu)成部分是實(shí)體,結(jié)合已經(jīng)實(shí)現(xiàn)的典籍?dāng)?shù)字文本,對典籍當(dāng)中不同實(shí)體進(jìn)行分析,形成典籍實(shí)體規(guī)范是本課題當(dāng)前完成的一項(xiàng)工作。典籍實(shí)體規(guī)范的整體概貌如下:古漢語尤其是春秋時(shí)期的人名構(gòu)成,與現(xiàn)代漢語人名構(gòu)成方式有很大不同,不論是構(gòu)成成分的種類,還是構(gòu)成規(guī)則,都要更加的復(fù)雜和多樣。在這樣的情況下,對人名進(jìn)行類別細(xì)化的必要性,成為一種必須認(rèn)真對待的問題。以下為按本規(guī)范標(biāo)注實(shí)體后的樣例:
夏,五月,鄭伯克段于鄢。
[TIME.季夏],[TIME.月五月],[PER.氏尊鄭伯]克[PER.名段]于[LOC.地 鄢]。本實(shí)體規(guī)范制定的目的是便于古漢語典籍的實(shí)體識(shí)別、實(shí)體消歧和實(shí)體關(guān)系抽取。實(shí)體識(shí)別是基礎(chǔ)和前提,也是最重要的一個(gè)環(huán)節(jié)。目前較為有效的實(shí)體識(shí)別技術(shù)大多基于條件隨機(jī)場等序列化標(biāo)注模型,對于漢語來說,序列化標(biāo)注的每一個(gè)特征項(xiàng)對應(yīng)一個(gè)漢字?紤]到這一點(diǎn),本規(guī)范在制定時(shí),力求保證實(shí)體類別和命名規(guī)則可以作為序列化標(biāo)注的特征項(xiàng)來使用。比如 “氏+尊稱+名”這一命名規(guī)則,人名構(gòu)成成分“氏”、“尊稱”和“名”可以對應(yīng)作為人名中每個(gè)漢字的特征項(xiàng),詳見下例:
[TIME.月份五月],[PER.氏尊名鄭伯突]出奔[LOC.國蔡]。
五 月 TIME.B
月, 月 TIME.E
鄭 氏 PER.B
伯 尊 PER.M
突 名 PER.E
出 N N
奔 N N
蔡 國 LOC.S
這樣對于按本規(guī)范標(biāo)注過命名實(shí)體的語料來說,有兩種重要的特征可以供序列化標(biāo)注模型來訓(xùn)練,且這些特征的信息量相對于以往漢語命名實(shí)體識(shí)別研究來說,是更為豐富的。
其次,結(jié)合已經(jīng)制定的《春秋經(jīng)傳引得》詞匯底表,對其中的非實(shí)體多義項(xiàng)詞匯進(jìn)行了分析,根據(jù)已經(jīng)確定的詞匯義項(xiàng),后續(xù)利用決策樹算法完成對詞匯義項(xiàng)計(jì)算模型的構(gòu)建,并把該模型推廣到其他典籍詞匯義項(xiàng)的確定上,從而實(shí)現(xiàn)對《漢學(xué)引得叢刊》整個(gè)多義詞義項(xiàng)的自動(dòng)確認(rèn)。
最后,《引得》的序言具有獨(dú)特的價(jià)值并且是典籍知識(shí)庫當(dāng)中獨(dú)特的知識(shí)的一種。在項(xiàng)目執(zhí)行過程當(dāng)中,選取《荀子引得》的序言為案例,對《引得》序言的結(jié)構(gòu)特點(diǎn)、語言特色進(jìn)行了分析,并實(shí)現(xiàn)了對該序言的數(shù)字化,為后續(xù)整個(gè)《漢學(xué)引得叢刊》序言的數(shù)字化、分析與統(tǒng)計(jì)打下了基礎(chǔ)。
四、基于典籍知識(shí)庫的《漢學(xué)引得叢刊》研究方面
一方面,圍繞《漢學(xué)引得叢刊》的學(xué)理探究。對《漢學(xué)引得》叢刊的主要編纂人員進(jìn)行了細(xì)致的梳理,系統(tǒng)而全面的展現(xiàn)了《漢學(xué)引得叢刊》編纂者的不同貢獻(xiàn),比如李書春不僅親自參與了多部引得的編纂工作,如《太平御覽引得》《食貨志十五種綜合引得》等,并獨(dú)自完成了《唐詩紀(jì)事著者引得》,還是《引得》校印所的負(fù)責(zé)人。以民國初期“西學(xué)東漸” 、“整理國故”與“索引運(yùn)動(dòng)”的發(fā)端為大背景,說明了哈佛燕京學(xué)社引得編纂處成立的時(shí)代背景和成立的整體情況,并通過《漢學(xué)引得叢刊》和《引得說》系統(tǒng)闡述了哈佛燕京學(xué)社引得編纂處的貢獻(xiàn)和價(jià)值。另一方面,通過對《儀禮引得附鄭注引書及賈疏引得》《春秋經(jīng)傳注疏引書引得》《禮記注疏引書引得》《毛詩注疏引書引得》《周禮引得附注疏引書引得》和《爾雅注疏引書引得》等經(jīng)部引書數(shù)據(jù)的分析,制定了該類引書的數(shù)字化整體框架,同時(shí)通過設(shè)計(jì)的專門程序獲取了這八部經(jīng)書的完整的注疏內(nèi)容,為后續(xù)全面分析引書的整體分布奠定了堅(jiān)實(shí)的基礎(chǔ)。
五、基于典籍知識(shí)庫的人文計(jì)算研究方面
一方面,對《左傳》、《尚書》、《詩經(jīng)》三部上古文獻(xiàn)字的分布頻次進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)均符合齊普夫定律,并對高頻字的分布進(jìn)行了統(tǒng)計(jì)和分析,統(tǒng)計(jì)結(jié)果見表1。
表1 《左傳》、《論語》、《詩經(jīng)》中前10高頻字詞分布情況
《左傳》 《論語》 《詩經(jīng)》
序號 漢字 頻次 頻率(%) 漢字 頻次 頻率(%) 漢字 頻次 頻率(%)
1 之 7344 3.746 子 975 6.108 之 1176 3.796
2 子 4988 2.544 曰 759 4.755 不 630 2.034
3 曰 3732 1.904 之 613 3.840 我 590 1.905
4 不 3632 1.853 不 583 3.652 有 568 1.834
5 也 3601 1.837 也 533 3.339 其 545 1.759
6 公 3447 1.758 而 345 2.161 子 477 1.540
7 以 3426 1.748 其 270 1.692 于 338 1.091
8 而 3128 1.596 者 219 1.372 兮 324 1.046
9 其 2662 1.358 人 219 1.372 彼 308 0.994
10 人 2577 1.315 以 211 1.322 以 307 0.991
合計(jì) 38537 19.659 4727 29.613 5263 16.99
另一方面,結(jié)合典籍文本,從宏觀的角度和微觀的細(xì)節(jié)挖掘出相應(yīng)的類別知識(shí)是人文計(jì)算的重要內(nèi)容之一。在這一前提下,基于《論語》《老子》《管子》《莊子》《孫子》《韓非子》《孟子》《荀子》和《墨子》等九部先秦典籍,結(jié)合支持向量機(jī),從宏觀的角度構(gòu)建了先秦典籍類別自動(dòng)判定模型。在構(gòu)建自動(dòng)分類模型過程當(dāng)中所使用的TF-IDF、互信息、卡方統(tǒng)計(jì)和信息增益方法獲取特征詞的策略,為后續(xù)分類模型特征詞的選取積累了特定的經(jīng)驗(yàn),同時(shí)在分類過程當(dāng)中對特征維度的選取在一定程度為后續(xù)構(gòu)建高性能的自動(dòng)分類模型奠定了基礎(chǔ)。
2、調(diào)查研究及學(xué)術(shù)交流情況
(一)調(diào)研數(shù)據(jù)整理運(yùn)用
在本項(xiàng)目執(zhí)行的過程中,主要對典籍當(dāng)中實(shí)體的情況進(jìn)行了調(diào)研,調(diào)研范圍包括目前市面上所有的有關(guān)典籍的詞典,比如《春秋左傳詞典》《史記辭典》等,有關(guān)典籍的經(jīng)典評介、教材,比如魯迅先生的《漢文學(xué)史綱要》袁行霈先生主編的袁行霈先生的《中國文學(xué)史》、王力先生的《古代漢語》等,整理形成了關(guān)于典籍中人名、地名和時(shí)間等實(shí)體規(guī)范的有關(guān)調(diào)研數(shù)據(jù),下文具體給出了有關(guān)人名這一實(shí)體分布的調(diào)研情況,具體如下:
人名是最常見的命名實(shí)體。在現(xiàn)代漢語命名實(shí)體識(shí)別研究中,常根據(jù)“姓+名”這樣的人名構(gòu)造規(guī)則,利用姓氏表、人名用字表等資源來提高識(shí)別效果。然而古漢語人名的構(gòu)造規(guī)則與現(xiàn)代漢語有較大不同,且存在著多種規(guī)則并用的情況。對于多種命名規(guī)則,使用同一個(gè)實(shí)體類別來表示顯然是不利于實(shí)體挖掘研究,因此有必要對人名實(shí)體進(jìn)一步分類,以對應(yīng)不同的命名規(guī)則。現(xiàn)代漢語人名一般由“姓”和“名”構(gòu)成。古代漢語中,“字”也是構(gòu)成人名的重要成分。在春秋時(shí)期的典籍中,人名的構(gòu)成更為復(fù)雜,“名、字、氏、尊稱、爵稱、出生、排行、謚號、職官、姓”等均是重要的構(gòu)成成分。
不同人名的構(gòu)成成分通過排列組合,可以形成種類繁多的命名規(guī)則。然而不可能所有的組合都能構(gòu)成人名。春秋中人名構(gòu)成成分繁多,構(gòu)成規(guī)則復(fù)雜多變,而構(gòu)成人名的漢字卻十分有限,而且春秋時(shí)期典籍文獻(xiàn)的數(shù)量和文字量相對較少。經(jīng)過調(diào)研,我們對春秋時(shí)期的人名與稱謂的標(biāo)注形成了一整套完整的規(guī)范,具體包括以下14種情況:爵稱和尊稱;字的構(gòu)成與表示;“子”字;排行和尊稱;排行和氏;名;字;排行;“子”;氏;謚號;排行;合稱。
(二)文獻(xiàn)資料收集整理
圍繞著人文計(jì)算、數(shù)字人文、典籍?dāng)?shù)字化、古文自動(dòng)處理等已有的相關(guān)研究,面向CNKI、萬方、維普和讀秀、Web of Science等學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫,拉網(wǎng)式地獲取了相關(guān)的研究文獻(xiàn),并基于已經(jīng)占有的相關(guān)文獻(xiàn),針對古文數(shù)字化、智能處理和相關(guān)人文計(jì)算研究的已有研究,對古文信息處理的研究現(xiàn)狀進(jìn)行了統(tǒng)計(jì)和分析。
二、 研究成果情況
①代表性成果簡介
在按部就班推進(jìn)項(xiàng)目進(jìn)行的過程中,形成了如下三類成果:
1、以《春秋經(jīng)傳引得》為代表的典籍精加工語料庫。該語料庫不僅標(biāo)注了實(shí)體、非實(shí)體、單一義項(xiàng)和多義項(xiàng)的等細(xì)顆粒度的語義知識(shí),而且進(jìn)行了自動(dòng)分詞和詞性標(biāo)記。該語料庫不僅為古文信息處理提供了第一手的極其寶貴的深標(biāo)注語料,而且有益于古典文獻(xiàn)學(xué)、目錄學(xué)和古漢語的研究者基于該語料庫展開深入的數(shù)字人文探究。
2、面向典籍的知識(shí)挖掘模型構(gòu)建。結(jié)合《毛詩引得》、《春秋經(jīng)傳引得》等精加工的典籍語料,結(jié)合自動(dòng)斷句、自動(dòng)分詞、詞性標(biāo)注、多義詞消歧等研究任務(wù),通過條件隨機(jī)場、支持向量機(jī)、決策樹所構(gòu)建的各種知識(shí)挖掘模型是本課題的代表性的研究成果之一。該系列知識(shí)挖掘模型的構(gòu)建不僅能夠推進(jìn)《漢學(xué)引得學(xué)刊》知識(shí)挖掘的探究向縱深發(fā)展,而且對于其他古漢語知識(shí)挖掘的探究也有極大的參考價(jià)值。
3、針對典籍知識(shí)挖掘探究刊發(fā)的系列論文。圍繞著《漢學(xué)引得叢刊》中的典籍所進(jìn)行的《引得》數(shù)字化、典籍自動(dòng)分詞、典籍詞性標(biāo)注、相關(guān)研究狀況綜述、典籍自動(dòng)分類和《引得》的學(xué)理性探究等問題,刊發(fā)了系列論文。該系列論文的刊發(fā)一方面有助于相關(guān)的研究者了解目前該領(lǐng)域的最新研究進(jìn)展,另一方面有利于提升該研究領(lǐng)域在社會(huì)上影響力。
②階段性成果及內(nèi)容簡介
1、王曉玉, 李斌. 基于CRFs和詞典信息的中古漢語自動(dòng)分詞[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017, 1(5):62-70.
以古籍語料為例,針對中古漢語的自動(dòng)分詞問題,優(yōu)化分詞原則,運(yùn)用CRFs模型和詞典相結(jié)合的方法,消除中古漢語人工分詞結(jié)果中易出現(xiàn)的分詞不一致問題;同時(shí)在CRFs分詞中引入字符分類、字典信息兩種特征,并通過對比實(shí)驗(yàn)選取每種特征最合適的分詞模板。實(shí)驗(yàn)結(jié)果顯示,分詞結(jié)果的總F值在封閉測試中達(dá)到99%以上,開放測試的綜合測試中也達(dá)到89%-95%。結(jié)果表明,在有效提高分詞一致性的前提下,字符分類、詞典標(biāo)記特征能夠有效提高中古漢語CRFs分詞的精確度。同時(shí),所提出的中古漢語分詞系統(tǒng)可以服務(wù)于中古時(shí)期多類別的漢語語料。
2、黃水清,王東波. 基于優(yōu)質(zhì)人工語料的古籍文本人文計(jì)算[C].// 《中國索引》編輯部. 中國索引(第二輯). 上海:復(fù)旦大學(xué)出版社,2017.(二校結(jié)束)
在介紹了有關(guān)人文計(jì)算的主要研究機(jī)構(gòu)和回顧了有代表性的古籍文本人文計(jì)算研究的基礎(chǔ)上,對《漢學(xué)引得叢刊》產(chǎn)生的歷史背景和內(nèi)涵與外延進(jìn)行了細(xì)致而全面的闡述。在簡述《漢學(xué)引得叢刊》在典籍索引編纂實(shí)踐和整體索引理論構(gòu)建上的價(jià)值前提下,從中華文化和學(xué)術(shù)資源寶庫的角度,分析了《漢學(xué)引得叢刊》對古籍文本人文計(jì)算的獨(dú)特意義和價(jià)值;凇稘h學(xué)引得叢刊》的獨(dú)特體例,結(jié)合人工和計(jì)算機(jī)有機(jī)協(xié)同的策略,在對《漢學(xué)引得叢刊》的多層面優(yōu)質(zhì)人工語料進(jìn)行加工的基礎(chǔ)上,擬對古籍文本的人文計(jì)算進(jìn)行多角度的探究。
3、馬學(xué)良,耿兆輝,劉玲玲,王東波[J].哈佛燕京學(xué)社引得編纂處的成立與索引貢獻(xiàn)[J]. 圖書情報(bào)工作,2017,61(12):50-56.
文章通過文獻(xiàn)分析法和演繹法,總結(jié)了引得編纂處成立前東西方文化交流和中國傳統(tǒng)知識(shí)分子轉(zhuǎn)型的社會(huì)背景,分析了“整理國故”運(yùn)動(dòng)、“索引運(yùn)動(dòng)”影響下引得編纂處取得的索引成就。文章認(rèn)為,哈佛燕京學(xué)社引得編纂處是民國時(shí)期“西學(xué)東漸”、“整理國故”及“索引運(yùn)動(dòng)”等眾多因素影響下的產(chǎn)物,成績斐然;引得編纂處的成就不僅局限于編纂了64種引得本身,還對中國索引事業(yè)發(fā)展起到了巨大的推動(dòng)作用,對中國學(xué)術(shù)界產(chǎn)生了深遠(yuǎn)影響。
4、劉玲玲,梁旭,馬學(xué)良. 哈佛燕京學(xué)社引得編纂處成員分析[J]. 圖書情報(bào)工作,2017,61(12):57-63.
文章運(yùn)用文獻(xiàn)分析法和數(shù)據(jù)分析法,發(fā)現(xiàn)近年來關(guān)于哈佛燕京學(xué)社漢學(xué)引得叢刊研究過程中對于引得編纂處的成員構(gòu)成始終是一個(gè)盲區(qū),通過鉤沉史料,揭示了他們各自的生平、學(xué)術(shù)背景、學(xué)術(shù)思想及在引得編纂處所承擔(dān)的任務(wù)與角色。研究發(fā)現(xiàn):擁有一批精干的專業(yè)人才隊(duì)伍,是哈佛燕京學(xué)社引得編纂處在古籍索引編纂方面取得斐然成就的關(guān)鍵要素。
5、黃水清,王東波. 古文信息處理研究的現(xiàn)狀及趨勢[J].圖書情報(bào)工作,2017,61(12):43-49.
隨著古文數(shù)字化、智能處理和相關(guān)人文計(jì)算研究的迅速發(fā)展,對這一領(lǐng)域的整體研究狀況進(jìn)行梳理,不僅有助于從以往的研究當(dāng)中總結(jié)相應(yīng)的規(guī)律,而且在一定程度上有益于后續(xù)探究的展開。文章厘定了古文信息處理的概念,分析了古文信息處理的研究現(xiàn)狀,給出了古文信息處理研究的整體概貌。同時(shí),在統(tǒng)計(jì)分析的基礎(chǔ)上,對古文數(shù)字化、智能處理和人文計(jì)算這3個(gè)方面的研究內(nèi)容進(jìn)行總結(jié)、回顧和研究趨勢的展望。研究表明,在古文信息處理研究中,古文數(shù)字化所取得的成就最大,古文智能處理在詞匯級的探究上取得了一定的成效,而對于人文計(jì)算來說,與古文相關(guān)的研究則才剛剛起步。
6、王東波,黃水清,何琳. 基于多特征知識(shí)的先秦典籍詞性自動(dòng)標(biāo)注研究[J]. 圖書情報(bào)工作,2017,61(12):64-70.
先秦典籍在古代典籍中的地位極為重要。本文提出對先秦典籍進(jìn)行詞性自動(dòng)標(biāo)注的解決方法,以便更加準(zhǔn)確地挖掘先秦典籍中的潛在知識(shí)。文章通過條件隨機(jī)場模型,結(jié)合統(tǒng)計(jì)方法確定組合特征模板,并最終得到針對先秦典籍的詞性自動(dòng)標(biāo)注算法模型。結(jié)果表明,在先秦典籍自動(dòng)分詞的整個(gè)流程基礎(chǔ)上,得到簡單特征模板、組合特征模板下的詞性自動(dòng)標(biāo)注模型,基于組合特征模板的詞性標(biāo)注模型調(diào)和平均值F達(dá)到94.79%,具有較強(qiáng)的推廣和應(yīng)用價(jià)值。在構(gòu)建詞性自動(dòng)標(biāo)注模型的過程中,通過融入字詞結(jié)構(gòu)、詞語拼音和字詞長度的特征知識(shí),使得模型的精確率和召回率得到有效的提升。
7、王東波,何琳,黃水清. 基于支持向量機(jī)的先秦諸子典籍自動(dòng)分類研究[J]. 圖書情報(bào)工作,2017,61(12):71-76.
針對先秦諸子典籍進(jìn)行自動(dòng)分類的探究,以更加深入和精準(zhǔn)地從古代典籍中挖掘出相應(yīng)的知識(shí)。基于《論語》《老子》《管子》《莊子》《孫子》《韓非子》《孟子》《荀子》和《墨子》9種先秦諸子典籍構(gòu)成的訓(xùn)練和測試語料,采用支持向量機(jī)技術(shù),提取TF-IDF、信息增益、卡方統(tǒng)計(jì)和互信息為特征,完成針對先秦諸子典籍的自動(dòng)分類實(shí)驗(yàn)。測試表明,基于先秦諸子典籍得到的自動(dòng)分類模型調(diào)和平均值能達(dá)到99.21%,效果較好,具有較強(qiáng)的推廣和應(yīng)用價(jià)值。
8、王姍姍,王東波,黃水清,何琳. 多維領(lǐng)域知識(shí)下的《詩經(jīng)》自動(dòng)分詞研究[J]. 情報(bào)學(xué)報(bào),已投稿,外審過程中
《詩經(jīng)》位居古文經(jīng)學(xué)派“五經(jīng)”之首,蘊(yùn)含豐富。隨著人文計(jì)算的廣泛應(yīng)用,本文結(jié)合《漢學(xué)引得叢刊》中《毛詩引得》的領(lǐng)域知識(shí),采用機(jī)器學(xué)習(xí)的方法研究《詩經(jīng)》的自動(dòng)分詞。基于《詩經(jīng)》手工分詞的語料,采用《廣韻》字表和統(tǒng)計(jì)分析相結(jié)合的方法,得到23組融合不同特征知識(shí)的特征模板,訓(xùn)練產(chǎn)生機(jī)器學(xué)習(xí)分詞模型。對每個(gè)分詞模型進(jìn)行性能測試,分析發(fā)現(xiàn)詞性特征對《詩經(jīng)》分詞效果的影響最大,且分詞模型的調(diào)和平均值F值最高可達(dá)到97.42%。最后,采用《毛詩引得》領(lǐng)域詞表對測試性能最佳的分詞模型進(jìn)行長詞校正的模型后處理,得到了融合引得專家詞匯知識(shí)的《詩經(jīng)》分詞語料。本文融入多維領(lǐng)域知識(shí)實(shí)現(xiàn)《詩經(jīng)》自動(dòng)分詞的研究模式不僅對先秦詩歌體的相關(guān)研究起借鑒意義,而且對先秦典籍的自動(dòng)分詞研究具有啟發(fā)性,《詩經(jīng)》分詞語料作為本項(xiàng)目先秦典籍語料庫的一部分,對進(jìn)一步實(shí)現(xiàn)先秦典籍的知識(shí)挖掘有較強(qiáng)的輔助作用。
課題組供稿