北京外國(guó)語(yǔ)大學(xué)北京日本學(xué)研究中心徐一平教授主持的國(guó)家社會(huì)科學(xué)基金項(xiàng)目《中日對(duì)譯語(yǔ)料庫(kù)的研制與應(yīng)用研究》,于1999年立項(xiàng),2003年7月結(jié)項(xiàng),其最終成果為《中日對(duì)譯語(yǔ)料庫(kù)》(CDROM)和《中日對(duì)譯語(yǔ)料庫(kù)的研制與應(yīng)用研究論文集》。課題組主要成員有:曹大峰、施建軍、戴寶玉、李強(qiáng)、潘壽君、楊詘人,F(xiàn)將該成果的基本內(nèi)容及其研究、應(yīng)用情況介紹如下:
隨著信息時(shí)代的到來(lái),大規(guī)模真實(shí)文本的處理給自然語(yǔ)言處理研究提出了緊迫的要求。同時(shí),語(yǔ)言學(xué)界也發(fā)現(xiàn),單純依靠語(yǔ)言學(xué)家的內(nèi)省和造句對(duì)語(yǔ)言所作的定性研究越來(lái)越難以全面、系統(tǒng)地描寫語(yǔ)言的真實(shí)全貌。因此,基于語(yǔ)料庫(kù)的經(jīng)驗(yàn)主義研究方法也就越來(lái)越受到語(yǔ)言學(xué)界和自然語(yǔ)言處理學(xué)界的青睞。在計(jì)算機(jī)不斷普及和自然語(yǔ)言處理研究不斷深入的過(guò)程中,基于單語(yǔ)語(yǔ)言的語(yǔ)料庫(kù)建設(shè)如雨后春筍,迅速發(fā)展。但是,作為基于中日兩種語(yǔ)言的大型雙語(yǔ)平行語(yǔ)料庫(kù),目前在世界上還沒(méi)有得到開(kāi)發(fā)和建立。因此可以說(shuō)這一項(xiàng)目的完成,具有世界首創(chuàng)和填補(bǔ)空白的重要意義。
一、內(nèi)容豐富、加工到位、檢索功能齊全的中日對(duì)譯語(yǔ)料庫(kù) 本項(xiàng)目完成的《中日對(duì)譯語(yǔ)料庫(kù)》(CDROM),共收入中日雙語(yǔ)各種文本語(yǔ)料2013萬(wàn)余字。在語(yǔ)料的收集上,考慮到語(yǔ)言研究和自然語(yǔ)言處理研究應(yīng)用的實(shí)際需要,在注重規(guī)模和原文、譯文質(zhì)量的同時(shí),還充分考慮到各種體裁、年代語(yǔ)料的平衡,經(jīng)過(guò)對(duì)原文文本和譯文文本的調(diào)查和專家篩選,最終收入了中日文各類文章原文文本和譯文文本共80余篇。其中不但收錄了中日對(duì)譯文章中最常見(jiàn)的小說(shuō)文本,還包括了如詩(shī)歌、散文、傳記、政論、法律法規(guī)、政府工作報(bào)告等各種體裁的語(yǔ)料文本,其跨越的時(shí)代也涉及到了近現(xiàn)代的各個(gè)時(shí)期,從而充分保證了語(yǔ)料的實(shí)用效果。在語(yǔ)料的錄入方面,經(jīng)過(guò)了多次反復(fù)的校對(duì),使錯(cuò)誤率控制在了萬(wàn)分之五以下,充分保證了所收語(yǔ)料的可信度。
為了適應(yīng)自然語(yǔ)言研究中知識(shí)提取的需要,對(duì)中日對(duì)譯語(yǔ)料庫(kù)中所收語(yǔ)料進(jìn)行了原文譯文對(duì)齊、詞性標(biāo)注、句法標(biāo)注等三個(gè)方面的深加工處理。
首先,原文譯文對(duì)齊是雙語(yǔ)平行語(yǔ)料庫(kù)的基本條件。但是,由于中日雙語(yǔ)語(yǔ)料自動(dòng)對(duì)齊的計(jì)算機(jī)工具尚未問(wèn)世,利用計(jì)算機(jī)對(duì)語(yǔ)料進(jìn)行機(jī)器自動(dòng)對(duì)齊加工,目前還不現(xiàn)實(shí)。因此,課題組成員利用人工方法對(duì)全部語(yǔ)料進(jìn)行了對(duì)齊加工,制定了詳細(xì)的對(duì)齊原則,最終實(shí)現(xiàn)了本語(yǔ)料庫(kù)的雙語(yǔ)語(yǔ)料在段落層面上的100%對(duì)齊。在確保語(yǔ)料對(duì)齊加工質(zhì)量的同時(shí),為今后實(shí)現(xiàn)中日雙語(yǔ)語(yǔ)料計(jì)算機(jī)自動(dòng)對(duì)齊和進(jìn)一步細(xì)化至句對(duì)齊,摸索出了一套成功的經(jīng)驗(yàn)。
其次,利用中日兩國(guó)自然語(yǔ)言處理研究中已經(jīng)開(kāi)發(fā)出來(lái)的先進(jìn)的分詞、詞性標(biāo)注技術(shù)和句法分析系統(tǒng),對(duì)整個(gè)語(yǔ)料庫(kù)的中日語(yǔ)料文本分別進(jìn)行了整體的分詞、詞性標(biāo)注和嘗試性的句法標(biāo)注。目前,由于自然語(yǔ)言處理技術(shù)的日益進(jìn)步,中日兩國(guó)單語(yǔ)語(yǔ)言的基于統(tǒng)計(jì)模型的分詞技術(shù)和詞性標(biāo)注技術(shù)均已日臻成熟。在中文方面,如北京大學(xué)計(jì)算語(yǔ)言學(xué)所開(kāi)發(fā)的漢語(yǔ)分詞標(biāo)注系統(tǒng)SLEX;在日文方面,如日本奈良尖端科學(xué)技術(shù)大學(xué)院大學(xué)建立的日語(yǔ)分詞標(biāo)注系統(tǒng)CHASEN等,其計(jì)算機(jī)自動(dòng)加工分詞和詞性標(biāo)注的準(zhǔn)確率均可以達(dá)到95%以上。在利用這些先進(jìn)技術(shù)對(duì)本項(xiàng)目研制的中日對(duì)譯語(yǔ)料庫(kù)的語(yǔ)料進(jìn)行分詞和詞性標(biāo)注加工時(shí),考慮到這些系統(tǒng)的統(tǒng)計(jì)模型都是基于純母語(yǔ)語(yǔ)料建立的這一特點(diǎn),針對(duì)“對(duì)譯語(yǔ)料庫(kù)”的語(yǔ)料特殊性,特別是譯文語(yǔ)料中所存在的一些原文留下的烙印,如人名、地名等專有名詞,是基于母語(yǔ)語(yǔ)料的現(xiàn)有系統(tǒng)處理不了的問(wèn)題,課題組在開(kāi)發(fā)研制過(guò)程中,分別在這些系統(tǒng)中建立了對(duì)譯語(yǔ)言的中日文人名、地名等的專有名詞詞典。同時(shí),采取了機(jī)器自動(dòng)分詞、標(biāo)注和人工校對(duì)相結(jié)合的方法,使中日雙語(yǔ)語(yǔ)料的分詞和詞性標(biāo)注的準(zhǔn)確率均達(dá)到了98%以上。另外,對(duì)10%的雙語(yǔ)語(yǔ)料進(jìn)行了嘗試性的句法標(biāo)注,其標(biāo)注準(zhǔn)確率,中文在60%—75%,日文在70%—80%之間。由于本項(xiàng)目的深加工處理,是在中日雙語(yǔ)語(yǔ)料中進(jìn)行的,其中所遇到的問(wèn)題和解決的辦法是現(xiàn)有基于母語(yǔ)語(yǔ)料的系統(tǒng)中所不曾遇到過(guò)的,特別是加工完以后的語(yǔ)料再反饋給單語(yǔ)語(yǔ)料加工系統(tǒng)作為習(xí)題庫(kù)進(jìn)行學(xué)習(xí),對(duì)進(jìn)一步提高單語(yǔ)語(yǔ)料加工系統(tǒng)的準(zhǔn)確率起到了積極的作用。
一個(gè)語(yǔ)料庫(kù)建成以后,是否能得到充分的應(yīng)用,其關(guān)鍵就在于該語(yǔ)料庫(kù)是否具備能夠滿足使用者要求的檢索功能。針對(duì)這一問(wèn)題,課題組成員集思廣益,并與日本日立公司中央研究所通力合作,開(kāi)發(fā)出了一套適合于中日對(duì)譯雙語(yǔ)平行語(yǔ)料庫(kù)特點(diǎn),并能夠滿足中日語(yǔ)言研究者需要的檢索工具。
為了適應(yīng)中日雙語(yǔ)語(yǔ)料的特點(diǎn),在檢索工具的功能上,要能夠做到對(duì)中日文語(yǔ)料進(jìn)行雙向檢索,并能夠提取與檢索結(jié)果相對(duì)應(yīng)的譯文語(yǔ)料,同時(shí)在計(jì)算機(jī)的同一個(gè)平臺(tái)上實(shí)現(xiàn)中日文的同屏顯示。課題組充分考慮到windows平臺(tái)的多語(yǔ)言技術(shù)特點(diǎn),將本語(yǔ)料庫(kù)的主要開(kāi)發(fā)平臺(tái)選定為windows操作系統(tǒng)。同時(shí),為了使語(yǔ)料庫(kù)具有廣泛的通用性和較強(qiáng)的兼容性,中文語(yǔ)料采用了GB2312內(nèi)碼存儲(chǔ),日文語(yǔ)料采用了SHIFTJIS內(nèi)碼存儲(chǔ)。這樣既可以適應(yīng)各種版本的windows平臺(tái),并且經(jīng)過(guò)簡(jiǎn)單轉(zhuǎn)換以后又可以在其他平臺(tái)(如UNIX、linux等)上使用,充分提高了語(yǔ)料庫(kù)的應(yīng)用價(jià)值和學(xué)術(shù)價(jià)值,并為最終實(shí)現(xiàn)中日文同屏顯示和多功能檢索奠定了基礎(chǔ)。
本語(yǔ)料庫(kù)提供的檢索工具主要是在windows2000和ie6.0上,利用數(shù)據(jù)庫(kù)技術(shù)開(kāi)發(fā)研制的。在顯示檢索結(jié)果時(shí)針對(duì)不同文種使用不同字體,有效地解決了中日文同屏顯示的問(wèn)題。而且,由于分別采用了中日兩國(guó)的國(guó)家工業(yè)標(biāo)準(zhǔn)代碼存儲(chǔ)語(yǔ)料,使得在不同語(yǔ)種檢索中出現(xiàn)的內(nèi)碼沖突問(wèn)題也得到了很好的解決,同時(shí)為語(yǔ)料庫(kù)數(shù)據(jù)的二次開(kāi)發(fā)利用也創(chuàng)造了有利的條件。針對(duì)語(yǔ)料庫(kù)主要用于語(yǔ)言研究的特點(diǎn),本語(yǔ)料庫(kù)提供的檢索工具,除具備一般語(yǔ)料庫(kù)所要求的簡(jiǎn)單的字符串檢索功能以外,還具備了句型檢索、特定組合形態(tài)詞語(yǔ)檢索、使用頻率檢索、正則表達(dá)式檢索等適應(yīng)各種語(yǔ)言研究復(fù)雜要求的檢索功能。其檢索速度也完全達(dá)到了實(shí)用的水平。
二、邊研制、邊應(yīng)用,研究成果始終在應(yīng)用中驗(yàn)證并提高 正如課題組在立項(xiàng)報(bào)告中闡明的那樣,此次開(kāi)發(fā)研制的《中日對(duì)譯語(yǔ)料庫(kù)(CDROM)》,其最終目的是為中日兩國(guó)語(yǔ)言研究服務(wù)。因此,對(duì)本語(yǔ)料庫(kù)的應(yīng)用性提出了很高的要求。為了使完成以后的中日對(duì)譯語(yǔ)料庫(kù)能夠滿足中日兩國(guó)語(yǔ)言研究者的應(yīng)用要求,在語(yǔ)料庫(kù)基本具備一定規(guī)模和相應(yīng)的檢索功能以后,課題組成員以及其他一些相關(guān)研究人員就開(kāi)始利用本語(yǔ)料庫(kù)進(jìn)行各種語(yǔ)言研究的嘗試。并分別于2001年9月和2002年9月舉行了兩次大型的國(guó)際學(xué)術(shù)研討會(huì)。
在2001年9月舉行的題為《中日對(duì)譯語(yǔ)料庫(kù)的研制與應(yīng)用研究》的國(guó)際學(xué)術(shù)研討會(huì)上,來(lái)自中日兩國(guó)的研究學(xué)者交流和研討了中日對(duì)譯語(yǔ)料庫(kù)在漢語(yǔ)語(yǔ)言學(xué)研究、日語(yǔ)語(yǔ)言學(xué)研究、漢日對(duì)比語(yǔ)言學(xué)研究、自然語(yǔ)言處理研究等領(lǐng)域中的應(yīng)用問(wèn)題,這些研究廣泛涉及到了句法、詞匯、翻譯、詞典、歷時(shí)語(yǔ)言學(xué)等諸多方面,為課題組進(jìn)一步完善中日對(duì)譯語(yǔ)料庫(kù)的研制提供了許多寶貴的數(shù)據(jù)。
在2002年9月舉行的題為《語(yǔ)料庫(kù)應(yīng)用研究的深化與拓展》的國(guó)際學(xué)術(shù)研討會(huì)上,來(lái)自中日韓三國(guó)的研究學(xué)者,圍繞“語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中的作用和局限性”、“語(yǔ)言學(xué)、信息處理研究所需要的語(yǔ)料庫(kù)”、“中日對(duì)譯語(yǔ)料庫(kù)的構(gòu)建和現(xiàn)狀”、“語(yǔ)料庫(kù)信息的自動(dòng)抽取及其在語(yǔ)言研究中的應(yīng)用”、“口語(yǔ)語(yǔ)料庫(kù)的建設(shè)與應(yīng)用”等課題,進(jìn)行了廣泛、深入的探討。
為了反映這些應(yīng)用研究成果,課題組將開(kāi)發(fā)過(guò)程中發(fā)表的階段性研究成果的論文以及利用中日對(duì)譯語(yǔ)料庫(kù)中期成果進(jìn)行的應(yīng)用性語(yǔ)言研究成果的論文匯集成冊(cè),出版了《中日對(duì)譯語(yǔ)料庫(kù)的研制與應(yīng)用研究論文集》。其中,利用中日對(duì)譯語(yǔ)料庫(kù)對(duì)中文的語(yǔ)氣助詞“吧”和日語(yǔ)助動(dòng)詞“だろう”的對(duì)比研究、對(duì)中文的語(yǔ)氣助詞“呢”的研究以及對(duì)中日文完成時(shí)的對(duì)比研究等,都得出了未使用對(duì)譯語(yǔ)料庫(kù)進(jìn)行研究所沒(méi)有得到的新的結(jié)論,進(jìn)一步推動(dòng)了中日兩國(guó)語(yǔ)言研究的深入發(fā)展,充分顯示了中日對(duì)譯語(yǔ)料庫(kù)在兩國(guó)語(yǔ)言研究中所能發(fā)揮的重要作用。
當(dāng)然,語(yǔ)料庫(kù)的應(yīng)用也不僅僅限于單純的語(yǔ)言研究。如本語(yǔ)料庫(kù)還在清華大學(xué)的日文OCR開(kāi)發(fā)項(xiàng)目,以及日本大學(xué)《日中古典文學(xué)今譯數(shù)據(jù)庫(kù)》項(xiàng)目等中日兩國(guó)的各類開(kāi)發(fā)項(xiàng)目中得到了實(shí)際的應(yīng)用,并收到了良好的社會(huì)效益。
在自然語(yǔ)言處理領(lǐng)域,語(yǔ)料庫(kù)是構(gòu)建語(yǔ)言數(shù)學(xué)模型的基礎(chǔ)。許多成功的機(jī)器翻譯系統(tǒng)的核心模型也都是在語(yǔ)料庫(kù)的基礎(chǔ)上建立起來(lái)的。在當(dāng)今世界國(guó)際化進(jìn)程不斷加快的今天,同處亞洲的中日兩國(guó)的關(guān)系越來(lái)越密切,一個(gè)滿足于中日兩國(guó)人民交往的中日機(jī)器翻譯系統(tǒng),越來(lái)越成為一種迫切的需要。而中日對(duì)譯語(yǔ)料庫(kù)必將成為這種翻譯系統(tǒng)的基礎(chǔ)。同時(shí),進(jìn)一步加大各國(guó)人民之間的交流,從雙邊關(guān)系進(jìn)一步發(fā)展為多邊關(guān)系也是世界發(fā)展的一個(gè)必然趨勢(shì)。在已經(jīng)開(kāi)發(fā)出的中日對(duì)譯雙語(yǔ)平行語(yǔ)料庫(kù)的基礎(chǔ)上,進(jìn)一步研制開(kāi)發(fā)中日韓對(duì)譯以及中日英對(duì)譯等三語(yǔ)或多語(yǔ)平行語(yǔ)料庫(kù),將是課題組的下一個(gè)努力目標(biāo)。
(責(zé)編:陳葉軍)