北京外國語大學 中國外語教育研究中心
提要:本文論述超大型雙語平行語料庫的設計與研制問題。在綜合述介國內外雙語語料庫建設情況之后,作者著重論述了中國英漢平行語料庫這一超大型雙語平行語料庫的設計特點(主要有分類架構、歷時處理、語料平衡以及通用的和各種專門語料的采集)和研制方法(主要講述語料的加工標注、檢索平臺以及各個專門語料庫、歷時語料庫和口譯語料庫的構建)。其設計與研制對于其他大型語料庫的建設具有借鑒意義。
關鍵詞:中國英漢平行語料庫;設計;研制
Abstract: The paper deals with the design and construction of a super-large-scale bilingual parallel corpus. After an overview of parallel corpora constructions and applications both in China and abroad, the design features (including classification and composition, diachronical arrangement, balance of textual materials, and collection of texts for general or specific purposes) and the construction methods (including tagging, concordance platform, and the construction of specialized corpora, diachronical corpora and interpreting corpora) of the super-large-scale China English-Chinese Parallel Corpus (CECPC) are focused on. The design and construction discussed are applicable to the compiling of other large-scale corpora.
Keywords: China English-Chinese Parallel Corpus (CECPC); design; construction
1、中國英漢平行語料庫的研制意義
在全球化、信息化的當今世界,翻譯已成為了解全球信息、擴大對外宣傳、獲取國際資源的重要手段。同計算機技術結合而興起的雙語平行語料庫建設,則為語言研究、翻譯研究、外語教學、詞典編纂和跨語言信息檢索等提供了最好的平臺,同時還可用來考察和驗證基于單語語料庫或者基于直覺提出的假設,具有廣闊的應用前景。
平行語料庫承載著相互對應的兩種語言,與語言對比研究有著天然的聯(lián)系,成為語言對比研究中的默認數(shù)據(jù)源;平行語料庫中的兩種語言互為對應,記載著兩種語言中的對應詞和對應單位,成為詞典編纂者最可靠的數(shù)據(jù)來源;平行語料庫中的源語言和目標語言互為對應,在翻譯教學和外語學習中的用途更是不言而喻。
除此之外,平行語料庫對機器翻譯和自然語言處理也極為重要。對齊的平行語料能為基于例句和統(tǒng)計的機器翻譯系統(tǒng)提供實證模型,同時也可以為基于規(guī)則的機器翻譯提供驗證規(guī)則,為機助翻譯提供大量翻譯記憶。正如歐赫(Och 2002)所言,“只要給我足夠的雙語對應數(shù)據(jù),幾個小時內我可以給你一個機器翻譯系統(tǒng)”。然而現(xiàn)有的英漢平行語料庫規(guī)模有限,且大多是利用現(xiàn)有同質翻譯資源建立的,并非平衡語料庫,常常不能較好地代表廣泛含義上的源語—譯語關系,依此生成的語言模型常常不能夠有效地解釋翻譯語言,這極大地阻礙了翻譯和詞典編纂等學科研究的深入,已成為提高機器翻譯譯文質量的瓶頸。
鑒于此,我們提出設計和研制更大規(guī)模、更多功能的超大型平行語料庫,即一億詞以上的“中國英漢平行語料庫”,以滿足各方面研究的需求和語料庫事業(yè)的發(fā)展。
中國英漢平行語料庫的研制意義可從以下兩方面體現(xiàn)出來。
第一,理論價值:
1)由于大型雙語平行語料庫規(guī)模超大、采樣嚴格,能夠較好地代表源語—譯語關系,因此能為翻譯研究、語言對比研究、語言演化研究、口筆譯比較研究等提供可靠的翻譯實例和量化數(shù)據(jù),從而提高上述研究的可信度。
2)在超大型雙語平行語料庫建設的基礎上,我們還將展開多項具有理論意義的語言和翻譯研究。這些研究主要包括歷時研究、類比動態(tài)描寫。研究分析時間跨度大,涉及層面多。
第二,應用價值:
1)在研究方法上,我們將據(jù)此探索基于語料庫的翻譯語言動態(tài)類比和描述,為語言的共時與歷時比較研究提供有效的、可操作性強的分析模式和研究平臺。
2)在大型雙語平行語料庫的采樣和加工方面,將提出更有借鑒價值的模板和方法。
總之,“中國英漢平行語料庫”這一超大規(guī)模的英漢/漢英平衡語料庫,為今后其他語對的雙語平行語料庫或多語平行語料庫的研制、雙語對比與研究、英漢語言接觸與現(xiàn)代漢語歷時變化研究等,提供共同的大型的實證研究基礎,為中國的語料庫研究走向世界前沿作出貢獻。
2、國內外雙語平行語料庫研制現(xiàn)狀
平行語料庫的研制歷史并不長,從世界上第一個初步的平行語料庫The Canadian Hansard Corpus (包括英法語版本的加拿大議會辯論語料)到目前僅二十年左右。但由于平行語料庫對于語言對比研究、翻譯研究、翻譯教學、翻譯技術開發(fā)(如機器翻譯系統(tǒng)、機輔翻譯工具)、雙語詞典編纂等語言學和自然語言處理研究具有巨大的潛在應用價值,平行語料庫的建設在世界上得到迅速發(fā)展(參見王克非等2004,McEnery & Xiao 2007)。目前,平行語料庫研究大多集中在歐洲,涉及語言也主要與歐洲語言有關,特別是歐共體/歐盟等機構的文件。
如蘭卡斯特大學早期創(chuàng)建的ITU/Crater平行庫包含歐洲委員會有關電信的英法雙語文件各一百萬詞,在句級對齊。
歐洲委員會聯(lián)合研究中心的JRC-ACQUIS多語種平行語料庫包括成員國的22種歐洲語言,目前的3.0版包括五十年代至2006年的歐洲法律文件463,792個,共計十億詞。
歐洲人類語言技術研究網絡(ELSNET)1994年發(fā)布的歐洲語料庫規(guī)范多語種語料庫1期 (ECI/MCI)包括27種語言(主要是歐洲語言,也包括漢語、日語和馬來語),以官方文件為主,但也包括少量的報紙、小說、技術報告、詞典和詞表;該庫共48部分,共計9,800萬詞,其中12個部分包含有平行語料。
MULTEXT語料庫是由歐洲語言資源協(xié)會資助的項目,其目的是開發(fā)多語種工具和語料庫;該語料庫包括采樣于歐洲委員會官方雜志(JOC)的五種語言各40個文檔,句級對齊,其中10個文檔還作了詞性標注。
PAROLE語料庫包括歐洲14種語言,采樣年代為1997-1998,文本來源包括書籍(20%),報紙(65%),雜志(5%),以及雜類文本(10%),共計2,000萬詞,每個子庫中25萬詞按照統(tǒng)一標準作了詞性標注。
多語種語料庫合作(MLCC)項目建立了一個多語種平行語料庫,包括九種歐洲語言,語料來源為上述提到的歐洲委員會官方雜志1992-1994年的文本。
愛丁堡大學的Europarl Parallel Corpus收集了1996-2009年間歐洲議會會議記錄,涉及11種語言,以雙語平行的形式發(fā)布,句級對齊,丹麥語、德語、希臘語、西班牙語、芬蘭語、法語、意大利語、荷蘭語、葡萄牙語、瑞典語分別與英語對應,共約5千萬詞(以英語計)(Koehn 2005)。
上述這些語料庫基本上都是文本來源單一、標注也簡單的歐洲語言專用語料庫,主要用于語言識別、文檔級對齊、術語提取等自然語言處理研究,而非從語言學角度研究語言(參見Xiao 2008)。
除此之外,也有少數(shù)幾個精心設計的平行語料庫,如由挪威奧斯陸大學研制的最早的英語—挪威語平行語料庫,包含英語和挪威語各100個1-1.5萬詞的英-挪對應母語文本及其挪-英翻譯文本,共260萬詞,語料采樣考慮到平衡性而非局限于少數(shù)幾個語域或語體,涉及小說(兒童小說、偵探小說、一般小說)和非小說(宗教、社會科學、法律、自然科學、醫(yī)學、藝術、歷史地理)。該語料庫不僅在句子層面對齊,而且對英挪語料均作了詞性標注和詞形還原(lemmatisation)處理。
英語—瑞典語平行語料庫則是采用英語-挪威語平行語料庫的建庫標準、由隆德大學(Lund University)和哥特堡大學聯(lián)合研制的平衡語料庫,包括64個英語原文文本及其瑞典語譯文和72個瑞典語原文文本及其英語譯文,共計280萬詞。
在這兩個語料庫的基礎上,近年來奧斯陸大學又以同樣標準開發(fā)了奧斯陸多語種語料庫(OMC),除了英語、挪威語、瑞典語外還涉及到了德語、法語、荷蘭語、芬蘭語、和葡萄牙語。這些精心設計的平行語料庫適合于翻譯與跨語言對比等研究,但局限于歐洲語言。
歐洲語言之外的平行語料庫,包括漢語在內,還不多見,精心設計的大型平衡語料庫則更少。主要有蘭卡斯特大學研制的英國少數(shù)民族語料庫EMILLE,包含了十五種南亞語言口語及書面語料近一億詞,其中平行語料庫部分包含20萬詞的英語文本及印地語、孟加拉語、旁遮普語、古吉拉特語及烏爾都語平行對應文本。語言數(shù)據(jù)聯(lián)盟(LDC)于2004年發(fā)行了香港平行文本庫(Hong Kong Parallel Text),包括590萬詞的英語文本和980萬字的漢語文本,英漢文本句級對齊;該庫由2000年所發(fā)行的三個英漢平行語料庫組成:香港法律辯論語料庫、香港法律語料庫、香港新聞語料庫。英國蘭卡斯特大學創(chuàng)建的Babel英漢平行語料庫由從《英語世界》等刊物采樣的327篇英漢雙語時文構成,采樣年代為2000-2001年,共計54萬詞;該庫實現(xiàn)句級對齊,并對英漢語文本都進行了分詞和詞性標注。臺灣輔仁大學初步建立了范本財經英日漢平行語料庫,收集語料約10萬句對。最近,香港理工大學和北京外國語大學的學者聯(lián)合研制了英漢旅游文本語料庫,約100萬字詞(參見李德超、王克非 2010)。
在我國內地,雙語平行語料庫的建設近十年來也取得了重大進展,已有多個英漢及日漢等雙語平行語料庫建成。如北京大學計算語言學研究所的漢英平行語料庫(5萬多句對)及其所承擔的863項目所建的英漢平行語料庫(20萬句對),哈爾濱工業(yè)大學的英漢雙語語料庫(40-50萬句對)。不過這些語料庫有一個共同之處,即建庫目的主要是自然語言處理而非語言學研究,因此所謂的句對通常是脫離上下文、打亂次序的孤立的句子,英譯漢與漢譯英語料夾雜,用戶不易識別翻譯方向。另外,國內近年來也建成了一些專門用途語料庫,如上海交通大學的莎士比亞戲劇英漢平行語料庫,燕山大學的紅樓夢譯本平行語料庫,紹興學院的魯迅小說漢英平行語料庫等。這些語料庫因為是專門性的,語料來源單一,規(guī)模比較小,適合專門研究而不適合通用語言研究。
國內學界平行語料庫研制方面最值得一提的是,2002年以來,北京外國語大學中國外語教育研究中心先后在教育部人文社科重點研究基地重大項目基金和國家社科基金的支持下,建成了規(guī)模約三千萬字詞的大型通用漢英平行語料庫,是目前最大規(guī)模的平衡語料庫,包括英譯漢和漢譯英雙向翻譯語料,而且采樣均衡,語體、語域及采樣年代覆蓋面廣,全庫實現(xiàn)句級對齊及詞性標注。其中部分語料(200余萬字詞)已提供在線檢索,為全社會服務。在該語料庫基礎上開展了一系列課題研究,如語料庫研制方面的研究(王克非等2004,常寶寶2004,等)、基于語料庫的翻譯學研究(秦洪武、王克非2004,王克非、黃立波2006,2008,王克非、胡顯耀2008,2010等)、基于語料庫的對比語言研究(秦洪武2009,王克非、秦洪武 2009,何文忠、王克非2009,秦洪武、王克非 2010)等?傊撜Z料庫為超大型的中國英漢平行語料庫的建設提供了重要的語料庫基礎和相關研究基礎,積累了研制大型平行語料庫的經驗。
上面對國內外研究現(xiàn)狀的簡述表明,平行語料庫研究目前主要涉及歐洲語言,而且歐盟機構和歐洲國家的研究基金愿意在該領域投入大量研究經費。現(xiàn)有涉及英語和漢語的雙語語料資源現(xiàn)狀與這一“大語種”語對的地位還不相稱,與研究的需要也不相適應,亟需一個大型、平衡的英漢雙向平行語料庫,使之成為既適用于自然語言處理與語言工程,又能應用于英漢語言對比研究(包括共時與歷時對比)和翻譯研究、翻譯教學與實踐、雙語詞典編纂的共同研究平臺,以便從不同角度展開的研究能真正揭示語言的本質,避免由于不同研究使用不同數(shù)據(jù)而造成的差異。我們希望通過研制這個中國英漢平行語料庫,并在此基礎上開展上述各項研究,使中國的雙語平行語料庫研制與加工走在世界前列。
3、中國英漢平行語料庫設計架構
我們在十年前創(chuàng)建漢英對應語料庫的基礎上(參見王克非 2004),開始研制超大型英漢平行語料庫——“中國英漢平行語料庫”,包括歷時性的平衡語料庫和若干專門語料庫以及口譯語料庫。在此基礎上我們將進一步開展1)平行語料庫深加工與標注研究、對齊檢索等工具研究,2)英漢語言對比、英漢互譯、語言接觸與漢語歷時發(fā)展等方面的研究,3)專門語料庫和口譯語料庫的建庫類型與特點研究,4)建庫過程中的語料采樣標準,數(shù)據(jù)源標示等標準類研究。
3.1 總體框架
本項目設計的超大型英漢平行語料庫,是研制與加工并重、語言研究與翻譯研究并重的語料庫,是兼顧筆譯和口譯文本、兼顧文本共時和歷時研究的語料庫,力求設計科學,分類合理,加工到位。注重以下特點和要點:超大規(guī)模、深度加工、多項檢索、軟件兼容、語料平衡、雙語雙向、共時歷時、通用專門、筆譯口譯。
3.2 主要內容
1)提出科學的語料采集方法,使雙語語料的采集既符合隨機、真實的原則,又比較對應、完整和具有一定代表性,便于今后語言、翻譯、教學等研究工作的開展。
2)進一步優(yōu)化雙語語料的對齊、標注問題,研制過程中開發(fā)和改進相關軟件,探討適合漢語詞語切分和標注的理論與方法,嘗試英漢專門語料和英漢口譯語料等特殊語料的標注和檢索,為有深度的語料檢索打好基礎。
3)探討優(yōu)化雙語平行語料庫的分類和架構,擬分文學、新聞、政論、科技、應用文等五大類和若干子類,使之更適合建成后的語言與翻譯研究。
4)研制適用基于語料庫的語言與翻譯歷時研究的檢索平臺,充分發(fā)掘雙語語料庫的研究潛力。
5)合理架構英漢/漢英雙向語料,大致按英漢2/3、漢英1/3的原則收集。
6)注意語料的時代標志,擬將整個20世紀的對應語料的一部分做歷時處理,在收集整理和標注加工方面,注意每20年為一階段,重點收集各階段后五年或某五年的相關語料,以便開展歷時的語言變化研究及語言與翻譯的關系研究。
就待建語料庫的構架設計而言,為了兼顧語言研究和自然語言處理等語言工程的不同需要,并考慮到對一般語言和專門用途語言的研究需要,該庫將由通用型的平衡語料庫和專用型的特定語域的專門語料庫構成,兩者大致各占一半。其中通用平衡庫約5000萬字詞,兼顧共時與歷時及翻譯方向的平衡性。
語料的共時平衡是指從語言實際應用的角度,按一定比例包括盡可能多的語體和語域!爸袊h平行語料庫”擬采用國際語料庫語言學界研制Lancaster-Olso-Bergen (LOB)等經典語料庫的方法,按文本類別采樣后整合。但考慮到那些經典英語語料庫在實際應用過程中常常將建庫時分類過細的語體按大類合并檢索分析,我們將直接按五大類體裁采樣:文學、新聞、政論、科技、應用文。各大類采樣時再兼顧小類的均衡性,如文學類中的小說、戲曲等;新聞中的報道、綜述等,科技類的書籍與期刊等介質、以及文理工農醫(yī)等特定語域,等等。
語料的歷時平衡是指從現(xiàn)代漢語發(fā)展的實際情況出發(fā),分段采樣以便所建語料庫能反映出現(xiàn)代漢語的發(fā)展軌跡,并在英漢平行語料庫的基礎上探究英漢語語言接觸及英語通過翻譯對漢語發(fā)展產生的影響。我們將克服英國國家語料庫(BNC)由于歷時連續(xù)采樣而造成的各階段差異模糊的缺陷,擬將二十世紀的平衡語料的一部分,大致分五個階段,重點收集各階段某五年的語料,各100-300百萬字詞,計1000萬字詞以上,總的平衡語料庫為5000萬字詞以上。
就翻譯方向而言,考慮到我國翻譯界的實際情況是英譯漢多于漢譯英,并且前者質量高于后者,“中國英漢平行語料庫”將包括三分之二的英譯漢語料和三分之一的漢譯英語料。英漢對比部分主要指在所建平衡語料庫的基礎上研究英語和漢語這兩個不同語系的國際大語種之間在總體上的相同和相異之處,同時考慮兩種語言在不同語體之間的異同;語言對比的另一個方面是比較對應的漢(英)語母語文本和漢(英)語譯文文本,以檢驗目前國際上翻譯共性研究領域基于小型對應語料庫所做出的假設,在理論上做出新的探索。
4、中國英漢平行語料庫的研制
研制工作主要涉及語料庫設計、語料收集、語料加工、語料庫檢索工具的設計、基于語料庫的研究、語料庫在線檢索六個部分。
4.1 研制上的簡要描述
語料庫設計
語庫規(guī)模:1億字/詞以上
語庫架構:1)通用英漢平行語料庫5000萬字詞;2)專門英漢平行語料庫5000多萬字詞,分交通英漢平行語料庫,時政新聞英漢平行語料庫,財經英漢平行語料庫和口譯語料庫)
語庫性質:雙語庫,平行庫;通用和專門,共時和歷時,筆譯和口譯
語料類型:書面語料為主,口譯語料為輔
語料分類:分文學、新聞、政論、科技、應用文等五大類體裁
翻譯語向:英漢(2/3)和漢英(1/3)雙語雙向
語料收集
語料收集的原則:按照年代收集,跨度為一個世紀的英漢雙語語料,并注意各階段語料在數(shù)量和質量上的大體均等。
語料的體裁:通用語料庫考慮平衡性,借鑒國外平衡語料庫的建構方法,按照五大體裁分類收集語料。
語料加工
元信息的設計:按照語料的來源、年代、語域、題材等設計多維元信息標簽,包括語料庫中英文名稱、所采集樣本的發(fā)生年代、語體、翻譯方向、原始數(shù)據(jù)篇名、作者、譯者、責任方(數(shù)據(jù)采樣人等信息)
對齊方式:句對齊
標注:實施詞性標注,根據(jù)研究需要嘗試對部分語料實施中英文句法標注;視研究條件嘗試翻譯技巧信息的人工識別和標注;人工識別翻譯對等語塊。
存貯方式:采用tmx格式的xml標記語言,統(tǒng)一碼UTF-8編碼,以便于存儲與交換;便于讀入數(shù)據(jù)庫,也便于檢索和機器翻譯系統(tǒng)的直接利用。
語料庫檢索工具的設計
檢索工具擬綜合利用Perl和C等語言的優(yōu)勢,充分利用元信息,針對不同用戶,提供簡單檢索、復雜檢索和有條件檢索,包括實施較精確的詞匯、語塊檢索,實現(xiàn)搭配信息的呈現(xiàn)。
基于語料庫的研究:
主要包括:a)基于語料庫的英漢語對比研究;b)基于語料庫的歷時翻譯研究;c)基于語料庫的翻譯共性研究;d)基于語料庫的漢語歷時變化研究;e)基于平行語料庫的詞典研編問題。
語料庫在線檢索:
在線平臺實現(xiàn)單機平臺相似的功能,同時實現(xiàn)語料庫的翻譯輔助功能:系統(tǒng)可將析出語料保存為tmx等格式,為現(xiàn)有的翻譯輔助軟件如Trados、Dejavu或者雅信等軟件所用。
4.2 具體研制思路
4.2.1 關于語料庫的加工標注和語料檢索
1)對語料庫中的各類文本進行合理的元信息標注,以便按照用戶設定的條件,從語料庫中抽取不同類型的雙語對齊文本。擬將元信息與文本分別獨立保存,即元信息脫離文本本身,便于對文本內語言信息的快速檢索。
2)對語料庫中的語言信息進行標注,以方便從語料庫中抽取用戶所需的多種語言信息。語言信息的標注主要包括詞性標注和部分文本的句法標注。
3)建立大規(guī)模機器翻譯記憶庫。研究中擬采用兼容性較好的通用標記語言存儲文本,建立大規(guī)模機器翻譯記憶庫(translation memory),使語料庫可以為機器翻譯系統(tǒng)所直接使用。
4)研制功能強大的配套軟件系統(tǒng)。軟件系統(tǒng)主要包括:a)元信息檢索系統(tǒng),用于根據(jù)用戶設定從語料庫中抽取文本;b)標注文本還原系統(tǒng),用于析出便于用戶閱讀的檢索詞及語境;c)翻譯記憶交換文件(tmx)生成和解析系統(tǒng),用于自動生成和解析翻譯記憶交換文件;d)單機和基于網絡的平行語料庫檢索系統(tǒng),用于準確、高效地對語料庫進行檢索。
4.2.2 專門英漢平行語料庫的研制
根據(jù)經濟社會發(fā)展的現(xiàn)實需求,研制多個專門用途平行語料庫。
1)專門英漢平行語料庫的研制:分別建立時政新聞英漢平行語料庫(2000萬字/詞),交通英漢平行語料庫(1500萬字/詞),財經英漢平行語料庫(1500萬字/詞),英漢口譯語料庫(>100萬字/詞)。分別收集處理各專門語料庫,制定此類語料庫文本的選取和抽樣細則,并設計和研制適合此類文本標注和檢索的應用平臺。
2)專門英漢平行語料庫的應用研究。課題組擬應用專門英漢平行語料庫,深入分析漢英語言詞匯之間的對應關系和轉換規(guī)律,研究當代英漢翻譯規(guī)范、漢語文本英譯語言特征和英語文本漢譯語言特征,克服目前語料庫翻譯學研究過多依賴于文學語料的缺陷,從而提高語料庫翻譯學研究的可信度和說服力。
3)基于語料庫的漢英口譯研究。課題組擬應用漢英口譯語料庫,分析漢英口譯語言的具體特征、口譯過程中的語言轉換規(guī)律以及口譯策略和方法等,研究口譯認知過程的本質及口譯活動的制衡因素,為構建實證、科學的口譯理論框架提供重要的物質基礎。
4.2.3平衡語料的收集整理與歷時語言/翻譯研究
在語料庫創(chuàng)建階段,按照子課題1制定的平衡語料收集和抽樣原則將選取的語料處理成機讀語料,完成語料處理的前期工作,主要包括雙語語料的校對、段對齊和片頭元數(shù)據(jù)標注,為后期的語料處理打好基礎。
除了前面說過的歷時語料處理外,在語料庫建設后期,我們將使用該語料庫開展?jié)h語的歷時語言演化研究,重點研究翻譯在現(xiàn)代漢語發(fā)展過程中的作用;開展基于大型語料庫的語言與翻譯研究,探討翻譯共性、翻譯技巧的歷時變化、漢語翻譯語言的特性、不同語域翻譯文本的特征等。
在處理歷時研究和共時研究的關系時,我們采用歷時研究方法對翻譯規(guī)范和目的語語言規(guī)范的發(fā)展變化進行類比研究,將共時研究滲透于各微觀研究層面,將靜態(tài)的整體性描述和動態(tài)的連續(xù)性分析有機結合起來。
在處理定性研究和定量研究的關系時,擬將定性分析與定量分析相結合。定量分析描述語言成分的使用頻率、語言特征的相關性和語言變化的趨勢;定性分析用于歸納、推理和解釋,即運用合適的理論來闡釋語言變異。
參考文獻
1. Anderman, G. and M. Rogers (eds.) Incorporating Corpora: The linguist and the Translator[C]. Clevedon: Multilingual Matters Ltd. 2007.
2. Koehn, P. Europarl: A Parallel Corpus for Statistical Machine Translation[A]. MT Summit 2005.
3. Lüdeling, A. and M. Kyt? (eds.) Corpus Linguistics: An International Handbook[C]. New York: Walter de Gruyter, 2008.
4. McEnery, T. & Xiao,Z. Parallel and comparable corpora: What is happening[A]? In M. Rogers and G. Anderman (eds) Incorporating Corpora. The Linguist and the Translator[C]. Clevedon: Multilingual Matters, 2007:18-31.
5. Xiao, Z. Well-known and influential corpora[A]. In A. Lüdeling & M. Kyto (eds) Corpus Linguistics: An International Handbook [Volume 1][C]. Berlin: Mouton de Gruyter, 2008: 383-457.
6. 常寶寶,2004,英漢對應詞的自動提取[A]。載王克非等《雙語對應語料庫:研制與應用》。北京:外語教學與研究出版社,80-96。
7. 馮志偉,2012,《統(tǒng)計機器翻譯》序[A]。載《統(tǒng)計機器翻譯》(Statistical Machine Translation)[M]。北京:電子工業(yè)出版社。
8. 何文忠、王克非,2009,英語中動結構修飾語的語料庫研究[J],《外語教學與研究》(4):250-257。
9. 李德超、王克非,2010,新型雙語旅游語料庫的研制和運用[J],《現(xiàn)代外語》(1):46-54。
10. 秦洪武、王克非,2004,基于語料的翻譯語言考察[J],《現(xiàn)代外語》(1):44-52
11. 秦洪武、王克非,2009,基于對應語料庫的英譯漢語言特征分析[J],《外語教學與研究》(2):131-136。
12. 秦洪武、王克非,2010,論元實現(xiàn)的詞匯化解釋:英漢語中的位移動詞[J],《當代語言學》(2):115-125。
13. 王克非,2004,新型雙語語料庫的設計與構建[J],《中國翻譯》(6):73-75。
14. 王克非、胡顯耀,2008,基于語料庫的翻譯漢語詞匯特征研究[J],《中國翻譯》(6):16-21。
15. 王克非、胡顯耀,2010,漢譯文學作品中人稱代詞的顯化和變異[J],《中國外語》(4):16-21。
16. 王克非、黃立波,2006,關于翻譯共性研究[J],《外語教學與研究》(5):36-40。
17. 王克非、秦洪武,2009,英譯漢語言特征探討——基于對應語料庫的宏觀分析[J],《外語學刊》(1):102-105。
18. 王克非等,2004,《雙語對應語料庫:研制與應用》[C]。北京:外語教學與研究出版社。