舊版網(wǎng)站入口

站內(nèi)搜索

“中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本及軟件平臺(tái)”中期檢查報(bào)告

2014年02月26日18:19來源:全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室

一、研究進(jìn)展情況

進(jìn)展情況:本項(xiàng)目嚴(yán)格按照申請(qǐng)書中的預(yù)定計(jì)劃、課題設(shè)計(jì)進(jìn)行研究,項(xiàng)目負(fù)責(zé)人和課題組成員按照規(guī)定負(fù)責(zé)或參加研究工作。在項(xiàng)目負(fù)責(zé)人和項(xiàng)目管理組的安排下,各個(gè)子課題承擔(dān)人紛紛到民族地區(qū)對(duì)所承擔(dān)語(yǔ)言進(jìn)行深入的調(diào)查描寫。課題組成員黃行、于金枝、藍(lán)利國(guó)等到廣西、貴州等地調(diào)查了苗語(yǔ)、壯語(yǔ);江荻、龍從軍、燕海雄、馬輝等到四川甘孜州、涼山州、西藏等地調(diào)查了藏語(yǔ)甘孜話、藏語(yǔ)拉薩話、彝語(yǔ)涼山話;王鋒、楊將領(lǐng)、陳國(guó)慶、鐘耀萍等到云南等地調(diào)查了白語(yǔ)、獨(dú)龍語(yǔ)、佤語(yǔ)、納西語(yǔ);潘立慧到海南調(diào)查了黎語(yǔ);徐世璇到湖南湘西調(diào)查了土家語(yǔ);斯欽朝克圖到內(nèi)蒙等地調(diào)查了蒙古語(yǔ)巴林話;苗東霞到新疆調(diào)查了西部裕固語(yǔ)等。目前,各個(gè)子項(xiàng)目進(jìn)展較為順利,多數(shù)已經(jīng)編輯完成電子詞典,并整理完成了文本語(yǔ)料。已有9種語(yǔ)言(藏語(yǔ)拉薩話、藏語(yǔ)安多話、彝語(yǔ)涼山話、壯語(yǔ)武鳴話、黎語(yǔ)志強(qiáng)話、德昂語(yǔ)、哈尼語(yǔ)、獨(dú)龍語(yǔ)、土家語(yǔ))在Toolbox軟件上完成了文本的語(yǔ)法標(biāo)注工作。近期,課題組獨(dú)立開發(fā)的軟件平臺(tái)也進(jìn)入試用期,可望為后續(xù)語(yǔ)言標(biāo)注提供軟件平臺(tái)。其余6種語(yǔ)言(拉塢戎語(yǔ)、滇東北苗語(yǔ)、傈僳語(yǔ)、水語(yǔ)、白語(yǔ)、鄂倫春語(yǔ))已經(jīng)完成了前期工作,包括詞典的編輯和部分文本語(yǔ)料的記錄采集,還需要進(jìn)一步到民族地區(qū)補(bǔ)充記錄民間故事等文本語(yǔ)料。

課題組于2011年3月份舉辦開題論證會(huì)1次(約50人,邀請(qǐng)了八位學(xué)術(shù)界權(quán)威專家),對(duì)本課題的意義、國(guó)內(nèi)外研究狀況以及本課題的重點(diǎn)難點(diǎn)等問題進(jìn)行了匯報(bào)和說明,并咨詢各位專家和參會(huì)人員的意見,統(tǒng)一了思路,明確了方法。課題執(zhí)行過程中,先后舉辦軟件培訓(xùn)會(huì)議7次(前后約37人次)以及課題中期檢查會(huì)議1次(約15人)等,各子課題負(fù)責(zé)人掌握了課題的總體思路,能夠熟練利用語(yǔ)法標(biāo)注軟件進(jìn)行工作。此外,課題組成員先后在玉溪師范學(xué)院、上海師范大學(xué)、復(fù)旦大學(xué)、中央民族大學(xué)、西藏民族學(xué)院、青海師范大學(xué)、北京大學(xué)、云南民族大學(xué)等國(guó)內(nèi)多所高校和研究單位進(jìn)行學(xué)術(shù)訪問、交流和軟件培訓(xùn),推進(jìn)了本課題學(xué)術(shù)創(chuàng)新,提高了課題成果的學(xué)術(shù)水平和影響力度,達(dá)到了技術(shù)共享的目的。

本課題從2010年立項(xiàng)以來,各子課題組經(jīng)過兩年的田野調(diào)查和語(yǔ)法標(biāo)注的實(shí)踐,積累了較為豐富的經(jīng)驗(yàn),也發(fā)現(xiàn)了存在的問題。為此,課題組于2013年1月份舉辦了中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注專題會(huì)議,專門探討民族語(yǔ)言標(biāo)注過程中遇到的問題和積累的經(jīng)驗(yàn)。該次會(huì)議的成果已編纂成專著《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究》,即將于2013年10月份在民族出版社出版。

課題組支持和鼓勵(lì)子課題成員參加國(guó)內(nèi)外相關(guān)的學(xué)術(shù)會(huì)議,先后參加的主要學(xué)術(shù)會(huì)議有“四川境內(nèi)的藏緬語(yǔ)國(guó)際學(xué)術(shù)研討會(huì)“、“當(dāng)代語(yǔ)言科學(xué)創(chuàng)新與發(fā)展國(guó)際研討會(huì)”、“第6屆國(guó)際彝緬語(yǔ)學(xué)術(shù)研討會(huì)”、“2012演化語(yǔ)言學(xué)國(guó)際研討會(huì)”、“第六界全國(guó)青年計(jì)算語(yǔ)言學(xué)會(huì)議”、“第11屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議”、“第2屆語(yǔ)言進(jìn)化與遺傳進(jìn)化國(guó)際會(huì)議”、“漢語(yǔ)方言類型研討會(huì)”等。

成果宣傳方面:課題組每年提交了工作簡(jiǎn)報(bào)。其中2011年開題論證會(huì)內(nèi)容在社科基金辦網(wǎng)站作為工作簡(jiǎn)報(bào)發(fā)布,2012年向社科基金辦提交了“走向創(chuàng)新:中國(guó)語(yǔ)言資源挖掘的新領(lǐng)域和新方法”外宣稿和年度簡(jiǎn)報(bào)。國(guó)家規(guī)劃辦(中宣部領(lǐng)導(dǎo))在2012年社科基金重大招標(biāo)項(xiàng)目的立項(xiàng)會(huì)議上,對(duì)本課題特別口頭提出表?yè)P(yáng),對(duì)本課題的重大價(jià)值和意義以及課題的執(zhí)行情況予以了肯定!吨袊(guó)社會(huì)科學(xué)報(bào)》2012年9月19日第358期發(fā)表了《打造信息時(shí)代的學(xué)術(shù)利器》,著重指出本課題意義重大:“當(dāng)代語(yǔ)言研究呼喚一種跨語(yǔ)言、跨方言的開放性研究,期待可供學(xué)科利用的多語(yǔ)種、多元化的真實(shí)文本資源。正是在這個(gè)意義上,利用專業(yè)軟件平臺(tái)開展民族語(yǔ)言語(yǔ)法文本標(biāo)注,不僅將拓展中國(guó)語(yǔ)言資源挖掘的新領(lǐng)域,而且將開辟新的研究范式,推進(jìn)語(yǔ)言研究的深度發(fā)展”。在昆明舉辦的“2013國(guó)際語(yǔ)言學(xué)高級(jí)研習(xí)班”上,課題組向參會(huì)的國(guó)內(nèi)外同行(包括美國(guó)少數(shù)民族語(yǔ)言研究院多位專家和中國(guó)臺(tái)北靜宜大學(xué)專家)全面介紹了本課題的設(shè)計(jì)思想、研究思路、技術(shù)方法以及階段成果,得到了與會(huì)者的高度好評(píng),擴(kuò)大了課題的影響力。

二、研究成果情況

1、已完成9部專著及相應(yīng)的數(shù)據(jù)庫(kù)(成果形式:專著/數(shù)據(jù)庫(kù))

本課題截至目前已有9種語(yǔ)言完成了語(yǔ)法標(biāo)注工作,在標(biāo)注數(shù)據(jù)庫(kù)的基礎(chǔ)上已經(jīng)撰寫成相應(yīng)的書稿。每部書稿的基本內(nèi)容包括:第一,該語(yǔ)言導(dǎo)論,介紹標(biāo)注語(yǔ)言的背景和語(yǔ)音、詞匯、語(yǔ)法特征。第二,20余篇約5-10萬(wàn)字語(yǔ)法標(biāo)注真實(shí)文本(即標(biāo)注熟語(yǔ)料,形態(tài)、語(yǔ)序、句法),并配以句對(duì)齊漢語(yǔ)譯文和全文譯文,多行對(duì)照總字?jǐn)?shù)達(dá)20余萬(wàn)字,是全書的主體。第三,全書文本詞匯索引和后記。每部專著約30萬(wàn)字,分別為:

(1)、江 荻:《藏語(yǔ)拉薩話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(2)、龍從軍:《藏語(yǔ)安多話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(3)、燕海雄:《彝語(yǔ)涼山話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(4)、楊將領(lǐng):《獨(dú)龍語(yǔ)獨(dú)龍江話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),30萬(wàn);

(5)、尹巧云:《德昂語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(6)、藍(lán)利國(guó):《壯語(yǔ)武鳴話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(7)、潘立慧:《黎語(yǔ)志強(qiáng)話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(8)、白碧波:《哈尼語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

(9)、徐世璇:《土家語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);

2、中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注平臺(tái)(成果形式:軟件)

本項(xiàng)目前期語(yǔ)言采用Toolbox軟件操作。由于SIL的Toolbox有兩方面缺陷:計(jì)算機(jī)內(nèi)碼層次太低,是基于DOS系統(tǒng)開發(fā)和改造的軟件,對(duì)多文字多字體操作缺乏兼容性,例如漢字處理仍然保留單八位底層編碼,造成半個(gè)漢字現(xiàn)象;同時(shí),該軟件英文版本,功能設(shè)置重復(fù),使用困難。為此,課題組開發(fā)出漢語(yǔ)版文本語(yǔ)法標(biāo)注平臺(tái)軟件,增加必要的輸入和輸出功能。這套軟件還包括分詞功能、詞典與文本互動(dòng)功能、字體設(shè)置(包括英語(yǔ)、漢語(yǔ)、音標(biāo)和其他民族文字)功能、隔行對(duì)照化整體移行功能等。目前,該軟件處于試用階段,正在完善隔行對(duì)照化、跳轉(zhuǎn)插詞、形態(tài)分析、深層形式和表層形式交互標(biāo)注等功能。

我們相信這套文本處理軟件將是一套適合中國(guó)少數(shù)民族語(yǔ)言或無文字語(yǔ)言全面開展語(yǔ)法-詞典研究的優(yōu)秀工具軟件,也是一種幫助研究者實(shí)現(xiàn)從文本編制語(yǔ)法詞典,又利用詞典自動(dòng)標(biāo)注文本的互動(dòng)分析工具。

3、《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注集》(成果形式:數(shù)據(jù)庫(kù))

《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注集》是本項(xiàng)研究的基礎(chǔ)工作。課題組建立三套完整的涵蓋了整個(gè)語(yǔ)法系統(tǒng)(詞法或形態(tài)、句法)的語(yǔ)法標(biāo)注集。實(shí)際上,由于各語(yǔ)言語(yǔ)法類型差異較大,按照語(yǔ)法差異類別可以分為苗瑤侗臺(tái)語(yǔ)、藏緬語(yǔ)、阿爾泰語(yǔ)(北方)三種類型,分別建立適合各類語(yǔ)言的標(biāo)注集。這三套語(yǔ)法標(biāo)注集由子課題組承擔(dān),要求全部按照國(guó)際規(guī)范用英語(yǔ)命名和縮略語(yǔ)注解,另外添加中文術(shù)語(yǔ)翻譯。具體要求包括詞類標(biāo)記、語(yǔ)法詞小類標(biāo)記(如語(yǔ)氣詞、代詞等)、形態(tài)標(biāo)記(如復(fù)數(shù)詞綴、時(shí)態(tài)詞綴等)、格標(biāo)記、體貌標(biāo)記、名詞化標(biāo)記、助詞標(biāo)記等。對(duì)于整套叢書,要求語(yǔ)法標(biāo)記保持一致,每個(gè)語(yǔ)言都從子課題語(yǔ)法標(biāo)注集選取標(biāo)記,形成標(biāo)準(zhǔn)化和規(guī)范化的標(biāo)注集,為中國(guó)民族語(yǔ)言研究奠定堅(jiān)實(shí)的基礎(chǔ)。

4、《中國(guó)民族語(yǔ)言語(yǔ)法信息電子詞典》(成果形式:數(shù)據(jù)庫(kù))

本課題每種語(yǔ)言的文本標(biāo)注都需要建立交互用電子詞典。因此,詞典是本課題的一項(xiàng)重要研究成果。這些詞典具有以下內(nèi)容:第一,雙語(yǔ)對(duì)照或多語(yǔ)對(duì)照(部分語(yǔ)言可以添加傳統(tǒng)文字,例如藏文、彝文、蒙古文等),即要求詞典包含民族語(yǔ)詞條,每個(gè)詞條用漢語(yǔ)(和/或英語(yǔ))注釋,注釋詞條將作為文本自動(dòng)標(biāo)注的對(duì)照詞條;第二,詞典規(guī)模在5000條至數(shù)萬(wàn)條。本項(xiàng)研究的語(yǔ)法標(biāo)注軟件平臺(tái)能為詞典與文本互動(dòng)提供了交互功能,即任何時(shí)候都可以從文本修改增刪詞典的詞條,擴(kuò)大詞條規(guī)模。第三,所有語(yǔ)言詞典都要添加語(yǔ)法標(biāo)記,語(yǔ)法標(biāo)記需要事先植入詞典,其中語(yǔ)法屬性包括每個(gè)詞的詞類,所有可能的語(yǔ)法詞(虛詞)的語(yǔ)法標(biāo)記,人稱代詞等封閉詞類的標(biāo)記等。

5、《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究》(成果形式:專著)

課題組于2013年1月份舉辦了中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注專題會(huì)議,探討民族語(yǔ)言語(yǔ)法現(xiàn)象和語(yǔ)法標(biāo)注過程中遇到的問題,交流經(jīng)驗(yàn)。在這次會(huì)議的基礎(chǔ)上,課題組成員積極撰寫研究文章。目前,書稿已經(jīng)提交民族出版社,全書約30萬(wàn)字,目前正在編輯印刷中。

 

序號(hào)

成果名稱

作者

成果形式

刊物名或出版社、刊發(fā)或出版時(shí)間

字?jǐn)?shù)

轉(zhuǎn)引

1

中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究

課題組

論著集

民族出版社

2013年10月

30萬(wàn)

 

2

中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注軟件平臺(tái)

課題組

軟件

1.0試用版

1件

 

3

東亞語(yǔ)言語(yǔ)音詞匯數(shù)據(jù)檢索系統(tǒng)的設(shè)計(jì)與功能概述

江荻

論文

《云南師范大學(xué)學(xué)報(bào)》2011年第2期

8000

 

4

國(guó)際音標(biāo)輸入軟件的設(shè)計(jì)與實(shí)現(xiàn)

江荻,劉匯丹,吳兵

論文

《中文信息學(xué)報(bào)》2011第2期

9000

 

5

重音、重調(diào)和聲調(diào)

江荻

論文

《語(yǔ)言教學(xué)與研究》2011第4期

10000

 

6

藏語(yǔ)不規(guī)則動(dòng)詞的信息標(biāo)注方法

江荻

論文

《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年

9000

 

7

藏語(yǔ)la don格標(biāo)記新分類

龍從軍

論文

《博士論壇論文集》,中央民族大學(xué)出版社,2012年

9000

 

8

la don分類標(biāo)準(zhǔn)及識(shí)別標(biāo)注研究

龍從軍

論文

《少數(shù)民族青年計(jì)算語(yǔ)言學(xué)論文集》,青海出版社,2012年

8000

 

9

簡(jiǎn)析藏語(yǔ)中的指小后綴

龍從軍

論文

《民族所青年論壇論文集》,社會(huì)科學(xué)文獻(xiàn)出版社,2012年

7000

 

10

基于Unicode的藏文轉(zhuǎn)寫拉丁算法

康才畯,江荻

論文

《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年

8000

 

11

藏文國(guó)際編碼的發(fā)展與技術(shù)應(yīng)用

吳兵,江荻

論文

西南民族大學(xué)學(xué)報(bào)》2011年第8期

9000

 

12

彝語(yǔ)派生名詞構(gòu)詞法研究

馬輝,江荻

論文

《民族語(yǔ)文》2012年第3期31-38頁(yè)

12000

 

13

有關(guān)計(jì)算機(jī)數(shù)據(jù)處理的記音規(guī)范建議

潘悟云 江荻 麥耘

論文

民族語(yǔ)文2012年第5期3-7頁(yè)

8000

 

14

獨(dú)龍語(yǔ)個(gè)體量詞的產(chǎn)生和發(fā)展

楊將領(lǐng)

論文

《民族語(yǔ)文》 2011年第6期

9000

 

15

內(nèi)爆音聲母探源

黃行

論文

《民族語(yǔ)文》2012年第2期

8000

 

16

相同語(yǔ)音范疇類型的跨語(yǔ)言比較研究

黃行

論文

《中國(guó)語(yǔ)言學(xué)報(bào)》第15期,商務(wù)印書館 2012年

12000

 

17

白語(yǔ)方言否定標(biāo)記的特征與來源

張軍

論文

《大理學(xué)院學(xué)報(bào)》 2012年第7期

7000

 

18

藏語(yǔ)文本信息處理的幾個(gè)關(guān)鍵問題

龍從軍

論文

科研信息化技術(shù)與應(yīng)用. 2012, 3(4): 51–58.

11000

 

19

論漢藏語(yǔ)言硬腭塞音的來源

燕海雄

論文

《民族語(yǔ)文》2011年第5期

8000

 

20

藏語(yǔ)判斷、存在動(dòng)詞識(shí)別策略

李琳,龍從軍

論文

中文信息學(xué)報(bào)(已接受)

9000

 

21

基于詞位的藏文黏寫形式的切分

康才畯,龍從軍,江荻

論文

計(jì)算機(jī)工程與應(yīng)用(已接受)

7000

 

22

藏語(yǔ)句法功能組塊的邊界識(shí)別

李琳,龍從軍,江荻

論文

第十二屆全國(guó)計(jì)算語(yǔ)言學(xué)會(huì)議,2013年10月10-12日,蘇州大學(xué)

7000

 

23

基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別研究

康才俊,龍從軍,江荻

論文

“2013亞洲語(yǔ)言信息處理國(guó)際會(huì)議”,8月17日-19日,新疆師范大學(xué)

8000

 

24

壯語(yǔ)的領(lǐng)屬結(jié)構(gòu)

藍(lán)利國(guó)

論文

漢語(yǔ)方言類型研討會(huì)暨第一屆方言語(yǔ)音與語(yǔ)法論壇,2012年8月7-9日,復(fù)旦大學(xué)

9000

 

25

藏東南地區(qū)藏緬語(yǔ)領(lǐng)屬結(jié)構(gòu)現(xiàn)象

江荻

論文

漢語(yǔ)方言類型研討會(huì)暨第一屆方言語(yǔ)音與語(yǔ)法論壇,2012年8月7-9日,復(fù)旦大學(xué)

 

 

26

藏語(yǔ)拉薩話語(yǔ)法標(biāo)注文本

江荻

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

27

藏語(yǔ)安多話語(yǔ)法標(biāo)注文本

龍從軍

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

28

彝語(yǔ)涼山話語(yǔ)法標(biāo)注文本

燕海雄,馬輝

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

29

獨(dú)龍語(yǔ)獨(dú)龍江話語(yǔ)法標(biāo)注文本

楊將領(lǐng)

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

30

德昂語(yǔ)語(yǔ)法標(biāo)注文本

尹巧云,劉巖

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

31

壯語(yǔ)武鳴話語(yǔ)法標(biāo)注文本

藍(lán)利國(guó)

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

32

黎語(yǔ)志強(qiáng)話語(yǔ)法標(biāo)注文本

潘立慧

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

33

哈尼語(yǔ)語(yǔ)法標(biāo)注文本

白碧波,許鮮明

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

34

土家語(yǔ)語(yǔ)法標(biāo)注文本

徐世璇

專著

數(shù)據(jù)庫(kù)

專著排版中

30萬(wàn)

 

(課題組供稿)

(責(zé)編:趙晶)
科技| 鹿邑县| 乌拉特中旗| 大余县| 石景山区| 岚皋县| 柳河县| 方正县| 休宁县| 忻州市| 云浮市| 万山特区| 桓仁| 阳新县| 梧州市| 英吉沙县| 南充市| 德江县| 东方市| 赣榆县| 太白县| 呼伦贝尔市| 略阳县| 普定县| 孟连| 区。| 晋宁县| 策勒县| 治县。| 太湖县| 安溪县| 连南| 宝清县| 宾阳县| 西和县| 二连浩特市| 金溪县| 繁峙县| 乳山市| 铁岭市|