中國共產(chǎn)黨新聞網(wǎng)>>全國哲學社會科學工作辦公室>>最新成果集萃

王克非：構(gòu)建新型的歷時復(fù)合語料庫

王克非2016年09月19日10:54來源：中國社會科學報國家社科基金�？�

作者為國家社科基金重大項目“大規(guī)模英漢平行語料庫的建立與加工”首席專家、北京外國語大學教授

20世紀語言學研究，從索緒爾開始，獲得極大的進展。其中在方法和工具層面的進步，以語料庫的研制與應(yīng)用最具標志性意義。隨著現(xiàn)代計算機技術(shù)的發(fā)展，單語語料庫研制從20世紀中葉起步，至今已助力語言學研究取得不少新成果。雙語語料庫雖然遲至20世紀90年代上路，但勢頭很強，帶動了雙語對比、翻譯及雙語詞典研編等一系列研究。

語料庫研制存在的問題

目前國際上雙語語料庫研制的主要問題：第一，語料庫大多文本來源單一、標注比較簡單，且多為歐洲語言，其他雙語語料庫甚少，主要用于語言識別、文檔級對齊、術(shù)語提取等自然語言處理研究，而非從語言學和翻譯學角度研究語言與翻譯問題。第二，少數(shù)雙語語料庫開展了相應(yīng)的語言與翻譯研究，但雙語語料庫在質(zhì)和量上都有待提升。第三，語言是發(fā)展變化的，在外語和翻譯的作用下，語言之間的各種接觸可能導(dǎo)致語言發(fā)生另樣的變化，原生語言和翻譯語言也存在種種的相似和相異。國際上現(xiàn)有的雙語語料庫或是缺乏歷時語料，或是語料庫庫容有限，上述研究課題也就懸而未探。第四，現(xiàn)有的無論單語還是雙語語料庫，很少做合成架構(gòu)，即要么是單語或雙語的，要么是平行或類比的，少見組合，不利于語言和翻譯發(fā)展變化的考察和比較。

針對上述問題，尤其是第四個問題，有必要思考如何突破語料庫研制的局限性。構(gòu)建新型的歷時復(fù)合語料庫，就是我們最新的嘗試。

歷時語料庫可提供各時期語言的相互比較，發(fā)現(xiàn)語言運用的變化及其過程，為語言變化考察、翻譯研究以及翻譯語言與目標語之間的互動，提供客觀的描寫和可分析的數(shù)據(jù)。在中外歷史上都有不少翻譯與目標語演化關(guān)系密切的案例。已往研究的語料來源不夠豐富，考察范圍有限，研究的深度和廣度大受制約，對原生漢語同翻譯漢語間的互動關(guān)系也缺乏了解，而這些都有望通過歷時語料數(shù)據(jù)的獲得和分析取得新的突破。

由此可見，研究語言及其變化不僅需要設(shè)計合理、規(guī)模較大的語料庫，還需要平衡的歷時語言素材。國際上，應(yīng)對這一需求的歷時語料庫近些年開始構(gòu)建。第一個歷時語料庫AVIATOR在1990年由伯明翰大學研制成功，另一個歷時語料庫ACRONYM于1994年建成。這兩個語料庫都使用連續(xù)出版的報刊為語料。代表性更強、跨度長達300多年的平行英語語料庫（ARCHER）、4億字詞的美國英語歷史語料庫（COHA）也陸續(xù)建成。但是，單語的歷時語料庫還不能解決雙語的和翻譯的問題。例如，現(xiàn)代漢語（包括翻譯的漢語）的發(fā)展變化，單從歷時語料庫還不能很好地考察，應(yīng)加入更多的比較成分，如英語源語的因素、漢語譯文的變化和漢語原文的變化，三者之間形成全方位的比較研究，才有可能更充分地描寫和分析。因此，不僅要構(gòu)建歷時的語料庫，還應(yīng)設(shè)計復(fù)合的歷時語料庫。

歷時—復(fù)合：語料庫研制的一大突破

新型歷時復(fù)合語料庫的構(gòu)建是語料庫研制的一項重要突破，國際上在這方面剛剛起步。德國學者尤莉安娜·豪斯項目組近年構(gòu)建了一個小型歷時復(fù)合型語料庫，共550篇文本、80萬詞。但因語料庫容量小，語料不夠平衡，時間節(jié)點不清，目前僅開展了初步的德英/英德翻譯研究和語言接觸研究。大規(guī)模英漢平行語料庫——英漢雙語的歷時復(fù)合語料庫，可以有效地解決上述語料庫簡單、語料庫質(zhì)量以及語料庫的歷時考察和復(fù)合對比研究等問題，為翻譯與目標語之間的互動建立比較完整的描寫和分析框架，使多層面、系統(tǒng)性的翻譯和語言變化歷時研究成為可能。

歷時語料不是隨意將各時期語料收集即可，需要平衡和分期。就漢語來說，語料的歷時平衡要通盤考慮現(xiàn)代漢語發(fā)展的實際情況，分期采樣，以便所建語料庫能反映出現(xiàn)代漢語的發(fā)展軌跡，并在英漢平行語料庫的基礎(chǔ)上探究英漢語言接觸及英語通過翻譯對漢語發(fā)展產(chǎn)生的影響。在語料、庫容、架構(gòu)、歷時、復(fù)合等方面必須突出自己的建庫特點，突破國際上一般雙語語料庫的語料選取和語庫架構(gòu)等方面的局限，還要避免英國國家語料庫（BNC）由于歷時連續(xù)采樣而造成的各階段差異模糊的缺陷。

我們的設(shè)計思路是，在庫容上達到1億字詞，含百萬字詞的口譯語料，并進行深度加工標注。除了語料平衡和庫容巨大這兩點外，歷時復(fù)合是創(chuàng)新亮點，復(fù)合即平行語料、類比語料、參照語料三結(jié)合，而非單一的平行語料。我們從漢語和翻譯發(fā)展的動態(tài)研究出發(fā)架構(gòu)歷時和復(fù)合的語料庫：將20世紀100年間的漢語語料分成三個階段，約30年為一個階段，重點采集各階段某10年的語料，各階段收集：（1）英漢平行文學語料400萬字詞。（2）漢語原生文學語料200萬字詞。（3）再輔以19世紀未受現(xiàn)代翻譯影響的原生態(tài)漢語文學語料200萬字詞，以及不諳外語的單語作家語料100萬字詞，合計近2000多萬字詞。

歷時復(fù)合語料庫的構(gòu)建除了注重時間段的劃分,還需在語料取樣上考慮雙語文本和翻譯研究的特定，即不同于一般的單、雙語語料庫，并需要考慮漢語早期白話文語料（包括翻譯文本）有限，本研究在語料取樣時做了適當變通，擴大了采樣數(shù)量。英漢歷時翻譯語料庫樣本結(jié)構(gòu)參照Brown語料庫，樣本大小參照挪威語/英語平行語料庫（The English-Norwegian Parallel Corpus，ENPC），大多數(shù)樣本為15000英語詞和對應(yīng)的25000漢字，漢語譯文取樣最多不超過30000字，一般從正文起始部分開始連續(xù)選取。

構(gòu)建新型語料庫時，還需要相應(yīng)的語料庫技術(shù)支撐，需要綜合型的便捷檢索平臺。例如充分調(diào)用篇頭（Header）標注中的文本屬性信息，讓這些元信息作為檢索條件出現(xiàn)在檢索平臺界面上，提升復(fù)合檢索水平；像類別、風格、體裁、作者、時間、出版社、時代等都可以用作檢索條件，保證語料檢索定向準確、針對性強。目前，以xml格式存儲的語料可以在專門設(shè)計的平臺上使用。

歷時復(fù)合語料庫的應(yīng)用

語言發(fā)展變化的因素有些屬于語言自身運動，有些是語言間的相互接觸影響所致，特別是翻譯在兩種語言間所起的作用，如近代以來的翻譯就對現(xiàn)代漢語白話文的發(fā)展起了重要推動作用。同時，漢語規(guī)范始終在隱性地規(guī)約翻譯語言變化的范圍。語言的發(fā)展變化會在詞素、詞語、搭配、短語、句式、句長、語篇等層面上反映出來。借助于歷時復(fù)合語料庫這個平臺，就可以充分比較和分析這些語言層面的歷時變化過程，并建立翻譯語言與現(xiàn)代漢語白話文間相互影響的動態(tài)模式；還可以通過和漢語原創(chuàng)參照庫對比，分析發(fā)現(xiàn)漢語歷時變化與翻譯之間的關(guān)系。研究內(nèi)容包括宏觀和微觀兩大方面。宏觀語言特征：重視使用語料庫驅(qū)動研究方法，側(cè)重考察句長、句段長、POS頻率、類符型符比，以及某些特定語言項目的歷時分布特征。微觀語言特征：語料庫驅(qū)動研究與基于語料庫的研究二者并用。前者通過WordSmith或AntConc的關(guān)鍵詞對比分析（keyness）詞匯和詞叢使用上的歷時差異，發(fā)現(xiàn)有價值的語言點，繼之歸類、分析；后者重視現(xiàn)有研究成果的有效運用，基于現(xiàn)有的研究提出理論假設(shè)，找到細化了的語言項目，或者通過細讀翻譯文本，觀察可分析的語言使用特征，在此基礎(chǔ)上基于歷時語料進行描述、分析和解釋。總之，歷時復(fù)合語料庫的應(yīng)用研究前景極為廣闊。

(責編：李葉、程宏毅)

聯(lián)系我們 | 版權(quán)聲明

主管主辦：全國哲學社會科學工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學社會科學工作辦公室版權(quán)所有京ICP備12051030號-2

景德镇市| 建宁县| 三都| 体育| 瑞金市| 水富县| 宜川县| 乐安县| 柘荣县| 扬州市| 元阳县| 左云县| 垣曲县| 高邮市| 仪陇县| 瑞金市| 天长市| 徐汇区| 长沙县| 津南区| 正阳县| 兰州市| 林州市| 剑阁县| 库尔勒市| 怀宁县| 泗水县| 青冈县| 鹤庆县| 乐亭县| 松滋市| 米林县| 大宁县| 拉萨市| 泰和县| 谷城县| 临城县| 凌海市| 施甸县| 罗源县|