舊版網站入口

站內搜索

計算語言學方法研究

——《計算語言學方法研究》成果選介

2011年05月15日16:51

  教育部語言文字應用研究所馮志偉教授主持完成的國家社會科學基金項目《計算語言學方法研究》(批準號為03BYY019),最終成果為同名專著。課題組成員有:楊泉、胡鳳國、張和友。

  計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興邊緣學科,涉及語言學、計算機科學、數學、心理學等部門。在計算語言學的發(fā)展過程中,提出了很多方法,這些方法,在理論上有一定的深度,在實踐上有實用價值,值得引起我們語言學研究者的重視。但是,國內計算語言學界對于這些方法的研究基本上是支離破碎的,缺乏系統(tǒng)的總結,更缺乏理論上的分析。本課題在全面調查國內外計算語言學各種方法的基礎上,對這些方法進行了系統(tǒng)的描述,并在理論上進行了深入的分析和概括,總結出規(guī)律性的具有方法論意義的認識。其主要內容分為七個部分。

  一、計算語言學的學科定位和主要方法

  這一部分首先從計算機處理自然語言的過程、計算語言學的范圍以及計算語言學的歷史三個角度來考察計算語言學的學科定位問題。從計算機處理自然語言的過程來考察它的學科定位,是從縱的角度來討論;從計算語言學的范圍來考察它的學科定位,是從橫的角度來討論。通過這種縱橫交錯的考察,我們對于計算語言學的學科定位就可以在共時的平面上得到比較清晰的認識。然后,我們再從計算語言學的歷史來考察,也就是從發(fā)展的角度來討論,這樣,我們對于計算語言學的學科定位就可以在歷時的平面上得到比較清晰的認識。

  對于計算語言學方法的研究,可以從方法論的角度來論述,也可以從語音、詞匯、形態(tài)、句法、語義、語用研究中使用的方法來論述。

  從方法論的角度,計算語言學方法可以分為基于規(guī)則的方法(rule-based approach)和基于統(tǒng)計的方法(statistics-based approach)兩個方面;谝(guī)則的方法是理性主義的方法,基于統(tǒng)計的方法是經驗主義的方法。這兩種方法實際上并不是完全對立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結合起來,取長補短,相得益彰。本項目如果把基于規(guī)則的方法和基于統(tǒng)計的方法分割開來研究,很多問題將會糾纏不清,不便于論述。因此,本項目不采取這樣的論述方式。

  本項目采取按照語言學學科分類的方式,從語音、詞匯、形態(tài)、句法、語義、語用研究中使用的計算語言學方法來加以論述。分別討論語音的自動處理方法、詞匯的自動處理方法、形態(tài)的自動處理方法、句法的自動分析方法、語義的自動處理方法、語用的自動處理方法。

  在論述時,首先對于各個領域內計算語言學方法的發(fā)展歷史進行簡要的回顧,然后,再對各種具體的方法進行論述和分析。這樣,計算語言學方法的研究便有了一個可靠的歷史背景,我們對于各種方法的來龍去脈也就更加清楚了。

  二、語音的自動處理方法

  文本-語音轉換(Text-to-Speech簡稱TTS)的核心任務是以文本中詞的序列作為輸入,產生聲學波形作為輸出。自動語音識別(Automatic Speech Recognition,簡稱ASR)的核心任務是以語音的聲學波形作為輸入,產生單詞串作為輸出。

  這一部分詳細討論了語音自動處理的主要方法:貝葉斯公式(Bayes formala)、噪聲信道模型(Noisy Channel Model)、N元語法(N-gram Grammar)、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)等。這些方法成為了計算語言學中各種統(tǒng)計方法的基礎。

  三、詞匯的自動處理方法

  語言中的詞匯具有高度系統(tǒng)化的結構,正是這種結構決定了單詞的意義和用法。這種結構包括單詞本身的固有的與上下文無關的語義特征以在文本中單詞與單詞之間語義關系特征。前者是單詞的靜態(tài)語義特征,后者是單詞與單詞之間的動態(tài)語義特征。

  對于單詞的靜態(tài)語義特征,這一部分從知識本體(ontology)的高度出發(fā),分析了美國普林斯頓大學研制的詞網(WordNet),指出了其優(yōu)點和不足之處,并介紹了我國學者提出的Ontol-MT通用知識本體系統(tǒng),說明了Ontol-MT在機器翻譯和歧義消解中的應用。

  對于單詞與單詞之間的動態(tài)語義特征,這一部分介紹了美國語言學家Fillmore研制的框架網絡(FrameNet)?蚣芫W絡的中心思想是詞的意義的描述必須與語義框架相聯系?蚣苁切叛、實踐、制度、想象等概念結構和模式的圖解表征,它為一定言語社團中意義的互動提供了基礎。

  由于多義詞是任何語言中都普遍存在的現象,而多義詞中諸多的詞義分布又很不容易找到一般的規(guī)律,多義詞的自動排歧涉及到上下文因素、語義因素、語境因素,還涉及到甚至日常生活中的常識,而這些因素的處理,恰恰是計算機最感棘手的問題。所以,詞義排歧(Word Sense Disambiguation,簡稱WSD)是計算語言學中的一個特別困難的問題。這一部分分析了英語中的詞匯歧義現象,介紹了幾種重要的詞義排歧方法。

  四、形態(tài)的自動處理方法

  不論是分析型語言、屈折型語言還是黏著型語言,都有形態(tài)自動分析的問題。形態(tài)分析主要采用有限狀態(tài)自動機和有限狀態(tài)轉移網絡來進行。這一部分詳細地介紹了有限狀態(tài)自動機和有限狀態(tài)轉移網絡的基本原理,通過大量實例來具體地說明自動形態(tài)分析的方法。

  漢語書面文本是連續(xù)的漢字串,單詞與單詞之間沒有空白,因此,漢語形態(tài)分析的主要任務就是自動切詞和自動詞性標注。這一部分還分析了漢語書面文本中確定切詞單位的某些形式因素,為自動切詞提供了比較可行的方法論基礎。

  五、句法的自動分析方法

  句法自動分析在計算語言學中叫做剖析(parsing)。所謂剖析,就是取一個輸入并產生出表示這個輸入的結構的過程。所謂句法剖析(syntactic parsing),就是計算機識別一個輸入句子并且給這個句子指派一個句法結構(例如,樹形圖,線圖)的過程。

  這一部分分別討論了目前在計算語言學中廣泛使用的基于轉移網絡的自動句法分析方法、基于上下文無關語法的自動句法分析方法、基于特征結構的自動句法分析方法、基于依存語法的自動句法分析方法。

  六、語義的自動處理方法

  語言的意義可以使用形式化的方法來捕捉,這種形式化方法叫做“意義表示”(meaning representation)。之所以需要這樣的意義表示,其原因在于:不論是沒有加工過的語言輸入,還是用自動句法分析方法推導出來的結構,都不能形式化地表示出語言的意義。因此,這樣的“意義表示”能夠在從語言輸入到與語言輸入意義有關的各式各樣的具體任務所需要的非語言知識之間架起一座橋梁。我們取語言的輸入來構造意義表示,這樣的意義表示要使用那些與表示日常生活中的常識性的世界知識同樣的材料來構成。產生這樣的意義表示并且把它們指派給語言輸入的過程叫做“語義分析”(semantic analysis)。

  這一部分分別討論了語言意義的四種表示方法:一階謂詞演算(First Order Predicate Calculus,簡稱 FOPC)表示法,語義網絡(semantic network)表示法,概念依存圖(Conceptual Dependency diagram)表示法,基于框架的表示法(Frame-based Representation)。這些意義表示方法都可以把語言輸入同外界世界和我們關于外界世界的知識聯系起來。

  這一部分還討論了句法驅動的語義自動分析方法、結構語義學、優(yōu)選語義學、孟塔鳩語法以及意義文本理論。

  七、語用的自動處理方法

  語用學是對語言與使用環(huán)境之間關系的研究。使用環(huán)境包括像人和物這樣的本體,因此語用學涉及如何將語言用于指示(以及回指)人和物的研究。使用環(huán)境也包括話語的上下文,因此語用學也涉及話語結構的形成以及會話時聽話人如何理解談話對象的研究。

  語用的自動分析才剛剛開始,國外已經取得初步的成果,國內的研究還做得不多。這一部分主要討論所指判定和文本連貫的自動分析方法。

  本課題的目的在于總結國內外的計算語言學方法,使之系統(tǒng)化,理論化,具體化。由于方法的研究是自然語言處理系統(tǒng)(諸如機器翻譯、語料庫、信息檢索、信息抽取、文本分類等)的開發(fā)的關鍵問題,因此,本課題的研究成果,對于各種類型的自然語言處理實用系統(tǒng)的開發(fā),在方法上具有普遍的指導意義,對于解決我國當前在自然語言信息處理中的理論和現實問題,具有重要的推動作用。
(責編:陳葉軍)
英德市| 西华县| 苗栗市| 武宁县| 新郑市| 收藏| 蓬安县| 南丹县| 深水埗区| 敦煌市| 庄河市| 唐海县| 兴山县| 介休市| 明溪县| 昆明市| 苗栗县| 游戏| 东明县| 措勤县| 曲周县| 巴彦县| 特克斯县| 墨脱县| 稻城县| 桐城市| 仲巴县| 庆安县| 南宁市| 澄城县| 水城县| 泸州市| 陇川县| 石阡县| 长丰县| 绥滨县| 洱源县| 塘沽区| 图片| 西城区|