西北民族大學(xué)于洪志教授主持完成的國家社會科學(xué)基金項(xiàng)目《信息處理用藏語分詞研究》(項(xiàng)目批準(zhǔn)號為02BYY038),最終成果為專著《藏文自動分詞研究》。課題組成員有:祁坤鈺。
藏語屬于漢藏語系的藏緬語族下的藏語支,與漢語相比較,藏語的語法特點(diǎn)體現(xiàn)在:詞的形態(tài)曲折變化主要表現(xiàn)在動詞的時(shí)態(tài)上(三時(shí)一式);名詞沒有單、復(fù)數(shù)之分,沒有黏著現(xiàn)象,也不具有曲折變化;形容詞沒有程度級的變化,級是由程度副詞來限制;藏文有六種形式邏輯格,格助詞豐富有黏著現(xiàn)象,且具有明確的語法功能;語序相對穩(wěn)定,是典型的SOV語言;沒有像漢語那樣豐富的量詞,個(gè)別存在;書寫過程中,詞與詞之間沒有明顯的邊界標(biāo)志;動詞和虛詞是表達(dá)句法結(jié)構(gòu)的主要手段;藏語中詞與詞之間的界限靠語義來區(qū)分,從形式上無法區(qū)分。因此,藏語與漢語有很大差異,應(yīng)建立面向信息處理用的藏語詞類語法體系。該成果主要內(nèi)容如下:
一、制定了藏語詞性標(biāo)記集規(guī)范
為了使藏文與漢文信息處理同步,建立統(tǒng)一的中文多文種信息處理平臺,本項(xiàng)研究借鑒北京大學(xué)現(xiàn)代漢語詞類及詞性標(biāo)記集規(guī)范、語料庫詞性標(biāo)記集,制定了藏語詞性標(biāo)記集規(guī)范。包括:名詞n(普通名詞ng、專有名詞np、人名nph、團(tuán)體機(jī)構(gòu)名npi、地名npp、辭藻nm),處所方位詞f,時(shí)間詞t,數(shù)詞m(基數(shù)詞mc、序數(shù)詞mo、分?jǐn)?shù)詞mf、陪數(shù)詞mi、5概數(shù)詞ma、總數(shù)詞mg、點(diǎn)數(shù)詞md),量詞q(名量詞qn、動量詞qv),代詞r(人稱代詞rp、指示代詞rd、疑問代詞ri、不定代詞rin),形容詞a(性質(zhì)形容詞aq,形狀形容詞as,顏色形容詞ac,數(shù)量形容詞am),擬聲詞o,副詞d(程度副詞de、時(shí)頻副詞d、范圍副詞db、情態(tài)副詞dm、否定副詞dd),動詞v(及物動詞vt、不及物動詞vi、助動詞vu、斷詞vp、形動詞vx、名動詞vd),簡別詞b,狀態(tài)詞z,助詞u(時(shí)態(tài)助詞ut、語氣助詞uy、原因助詞uc、目的助詞ui、終結(jié)助詞ue、祈使詞um),嘆詞e,介詞p,連詞c,成語i,習(xí)慣語l,簡語略j,前接成分h,中接成分zh,后接成分k,首飾符號sh,標(biāo)點(diǎn)符號x,非藏文字符w。
二、研究了藏文切分特征
1、藏文字切分特征
音節(jié)特征:藏文是拼音文字,由30個(gè)輔音字母、4個(gè)元音字母以及上、下加字組成。藏文字以音節(jié)為單位,每個(gè)音節(jié)最少可由一個(gè)輔音字母構(gòu)成,最多可由7個(gè)字母拼合而成,各音節(jié)間用音節(jié)點(diǎn)分隔。
拼寫特征:藏文自左向右書寫,組成音節(jié)時(shí)以基字為中心分為前加字、后加字和又后加字,基字可橫向和縱向雙向拼寫,而前加字和后加字只能橫向拼寫。
形態(tài)特征:藏文由確定的10個(gè)輔音字母作后加字,其形態(tài)特征都發(fā)生在這10個(gè)確定的后加字上。
標(biāo)點(diǎn)符號特征:藏文有一套獨(dú)立而完整的標(biāo)點(diǎn)符號體系,主要在篇章、段落、句子和字之間起分界符作用。
2、藏文詞切分特征
藏語詞從總體上分為實(shí)詞和虛詞兩大類。從藏文詞語的形態(tài)特征來看,明顯的切分特征主要有以下幾點(diǎn)。
格助詞接續(xù)特征:藏文格助詞的個(gè)數(shù)不多,但使用頻率極高。大多數(shù)藏文格助詞在添接時(shí),要嚴(yán)格按前一詞(或字)后加字的黏著性形態(tài)變化規(guī)則添接。
動詞的曲折形態(tài)特征:現(xiàn)代藏語只有動詞還保留著時(shí)、式、態(tài)等曲折形態(tài)變化。這是動詞有別于其他詞類的重要特征。
名物化詞綴特征:藏文動詞、形容詞在句子中修飾名詞性成分或作非謂成分時(shí),一般都要進(jìn)行名物化轉(zhuǎn)換,即要添接名物化后綴。
重疊結(jié)構(gòu)特征:藏文的重疊結(jié)構(gòu)主要發(fā)生在形容詞當(dāng)中,常見的重疊形式有AA式、ABB式、ABCB式等三種。
動名詞的動詞性詞綴特征:藏文動名詞兼有動詞和名詞兩種語法功能,是藏文特有的一類詞。其特點(diǎn)是通過后接固定的幾個(gè)動詞性詞綴實(shí)現(xiàn)詞性轉(zhuǎn)化。
3、句切分特征
藏語語序特征:藏語是SOV型語言,即謂語動詞后置型語言。動詞是句子的核心,決定著格助詞的添接類別。
借助格助詞來表達(dá)句子含義的作格特征
藏語短語的后修飾特征:一般情況下,藏語形容詞、數(shù)詞、代詞等與名詞結(jié)合構(gòu)成短語以及動詞與助動詞結(jié)合構(gòu)成短語時(shí),其中心語在前,修飾語在后。
三、研究了藏文分詞的單位與原則
分詞系統(tǒng)可以面向解決實(shí)際問題的需求和真實(shí)語料中使用的頻繁程度來規(guī)定“分詞單位”。
1、分詞既要符合語言學(xué)的一般規(guī)則,同時(shí)也要便于詞類和句法分析,不能分得過細(xì),也不能分得過粗。
2、分詞單位必須是在藏語言中出現(xiàn)的,而不是憑空臆造的任何字符串。
該成果采用《信息處理用現(xiàn)代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》兩者之長,為藏文分詞單位確立兩條基本原則和諸多輔助原則。
四、藏文自動分詞研究
1、藏文分詞方法
一是格分析法:這是藏語語法理論體系中固有的語法規(guī)律,藏語有比較完善的形式邏輯格語法理論體系。格關(guān)系理論和方法可以分析藏文句子的語義邏輯關(guān)系;可以做格關(guān)系的逆過程,就是通過格助詞與格關(guān)系來判斷通過格切分后詞匯的準(zhǔn)確度。
二是HNC(Hierarchical Network Concepts)概念層次網(wǎng)絡(luò)理論。HNC主要應(yīng)用在藏文詞匯概念的語義網(wǎng)絡(luò)中,藏文詞匯語義網(wǎng)絡(luò)用手工加統(tǒng)計(jì)的方法創(chuàng)建,其核心是聯(lián)想意義和上下位所屬關(guān)系。
三是二元屬性描寫方法。
四是匹配方法:在藏文中將格分析之后的藏語短語作為匹配的對象。根據(jù)匹配單位的需求可分為最大匹配法和最小匹配,根據(jù)消歧需求可分為正向匹配和逆向匹配等。
五是統(tǒng)計(jì)方法:主要應(yīng)用在獲取先驗(yàn)知識方面,如:藏文大丁字符信息表、藏文音節(jié)(擦青)表,藏文各種語言單位的二元模型、藏文格助詞的配價(jià)概率、藏文動詞詞表等。
2、分詞系統(tǒng)模塊
藏文自動分詞系統(tǒng),在基于規(guī)則和統(tǒng)計(jì)的基礎(chǔ)上,增加了聯(lián)想回溯算法,引入了句法、語義信息。系統(tǒng)包含預(yù)處理模塊、分割模塊、匹配識詞和規(guī)則識詞四個(gè)模塊。
預(yù)處理模塊:包括切分句子和語言分類兩個(gè)部分。切分句子是將源藏文文本語料依據(jù)藏文分句形態(tài)標(biāo)志信息(主要是藏文分句符號)分解成相對獨(dú)立的藏文句子,這個(gè)過程要考慮英、藏、漢多語種混排文本,即切句要考慮多語言的句子邊界信息。同時(shí)要保留原始文本的所有信息,保證文本的原貌不發(fā)生變化。語言分類是以句子為處理單位,把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中,根據(jù)不同的語言塊進(jìn)行處理。
分割模塊:以預(yù)處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進(jìn)的MM算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標(biāo)志,依靠聯(lián)想規(guī)則將一個(gè)音節(jié)串語塊分割成更小的語塊,對每個(gè)特征詞建立不同的規(guī)則來處理特征詞的左右邊界。改進(jìn)的MM算法是依據(jù)分詞詞表將藏文語塊識別成詞,MM方法中正向和逆向合一進(jìn)行,然后判斷并確定歧義結(jié)構(gòu),將歧義結(jié)構(gòu)交付排歧模塊處理,以便修改錯(cuò)誤的分詞結(jié)果。該分詞系統(tǒng)可以對藏文文本分詞正確率已經(jīng)達(dá)到了95%以上。
3、藏文分詞測評
一是開放性:易擴(kuò)充性、可維護(hù)性和可移植性等特點(diǎn)。要求在開放環(huán)境下切分精度和處理速度穩(wěn)定在實(shí)用的程度。
二是通用性:藏文自動分詞是高層藏語言信息處理的共同基礎(chǔ)。分詞系統(tǒng)應(yīng)該支持不同的應(yīng)用領(lǐng)域;支持不同學(xué)科領(lǐng)域的應(yīng)用;支持不同地區(qū)的語言處理需要;要適應(yīng)不同地區(qū)的語言風(fēng)格。
三是獨(dú)立性:不同的應(yīng)用系統(tǒng)對分詞系統(tǒng)的要求不同,因此分詞系統(tǒng)要有不同的版本,系統(tǒng)內(nèi)部的各種信息資源,以及處理信息資源的各個(gè)模塊要具有較高的獨(dú)立性,方便裝入系統(tǒng)或者從系統(tǒng)中卸載,提高系統(tǒng)處理精度和處理速度。
該成果從藏文字的產(chǎn)生,藏文的文字、音節(jié)、結(jié)構(gòu)、語法特征,討論了藏語詞類劃分,詞與其語言單位的區(qū)別,信息處理用藏語詞類,藏語詞性標(biāo)記集,研究了藏文分詞規(guī)范的設(shè)計(jì),藏語分詞的基本特征,使用范圍,用途,參考標(biāo)準(zhǔn)、藏語分詞用術(shù)語、藏語分詞單位、藏語分詞原則,這些工作在國內(nèi)學(xué)術(shù)界相關(guān)研究較少。藏文自動分詞是藏文自然語言理解的一項(xiàng)基礎(chǔ)性工程,藏語自然語言理解在機(jī)器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領(lǐng)域有著廣泛的應(yīng)用價(jià)值。
(責(zé)編:陳葉軍)