一、研究進(jìn)展情況
進(jìn)展情況:本項(xiàng)目嚴(yán)格按照申請(qǐng)書中的預(yù)定計(jì)劃、課題設(shè)計(jì)進(jìn)行研究,項(xiàng)目負(fù)責(zé)人和課題組成員按照規(guī)定負(fù)責(zé)或參加研究工作。在項(xiàng)目負(fù)責(zé)人和項(xiàng)目管理組的安排下,各個(gè)子課題承擔(dān)人紛紛到民族地區(qū)對(duì)所承擔(dān)語(yǔ)言進(jìn)行深入的調(diào)查描寫。課題組成員黃行、于金枝、藍(lán)利國(guó)等到廣西、貴州等地調(diào)查了苗語(yǔ)、壯語(yǔ);江荻、龍從軍、燕海雄、馬輝等到四川甘孜州、涼山州、西藏等地調(diào)查了藏語(yǔ)甘孜話、藏語(yǔ)拉薩話、彝語(yǔ)涼山話;王鋒、楊將領(lǐng)、陳國(guó)慶、鐘耀萍等到云南等地調(diào)查了白語(yǔ)、獨(dú)龍語(yǔ)、佤語(yǔ)、納西語(yǔ);潘立慧到海南調(diào)查了黎語(yǔ);徐世璇到湖南湘西調(diào)查了土家語(yǔ);斯欽朝克圖到內(nèi)蒙等地調(diào)查了蒙古語(yǔ)巴林話;苗東霞到新疆調(diào)查了西部裕固語(yǔ)等。目前,各個(gè)子項(xiàng)目進(jìn)展較為順利,多數(shù)已經(jīng)編輯完成電子詞典,并整理完成了文本語(yǔ)料。已有9種語(yǔ)言(藏語(yǔ)拉薩話、藏語(yǔ)安多話、彝語(yǔ)涼山話、壯語(yǔ)武鳴話、黎語(yǔ)志強(qiáng)話、德昂語(yǔ)、哈尼語(yǔ)、獨(dú)龍語(yǔ)、土家語(yǔ))在Toolbox軟件上完成了文本的語(yǔ)法標(biāo)注工作。近期,課題組獨(dú)立開發(fā)的軟件平臺(tái)也進(jìn)入試用期,可望為后續(xù)語(yǔ)言標(biāo)注提供軟件平臺(tái)。其余6種語(yǔ)言(拉塢戎語(yǔ)、滇東北苗語(yǔ)、傈僳語(yǔ)、水語(yǔ)、白語(yǔ)、鄂倫春語(yǔ))已經(jīng)完成了前期工作,包括詞典的編輯和部分文本語(yǔ)料的記錄采集,還需要進(jìn)一步到民族地區(qū)補(bǔ)充記錄民間故事等文本語(yǔ)料。
課題組于2011年3月份舉辦開題論證會(huì)1次(約50人,邀請(qǐng)了八位學(xué)術(shù)界權(quán)威專家),對(duì)本課題的意義、國(guó)內(nèi)外研究狀況以及本課題的重點(diǎn)難點(diǎn)等問題進(jìn)行了匯報(bào)和說明,并咨詢各位專家和參會(huì)人員的意見,統(tǒng)一了思路,明確了方法。課題執(zhí)行過程中,先后舉辦軟件培訓(xùn)會(huì)議7次(前后約37人次)以及課題中期檢查會(huì)議1次(約15人)等,各子課題負(fù)責(zé)人掌握了課題的總體思路,能夠熟練利用語(yǔ)法標(biāo)注軟件進(jìn)行工作。此外,課題組成員先后在玉溪師范學(xué)院、上海師范大學(xué)、復(fù)旦大學(xué)、中央民族大學(xué)、西藏民族學(xué)院、青海師范大學(xué)、北京大學(xué)、云南民族大學(xué)等國(guó)內(nèi)多所高校和研究單位進(jìn)行學(xué)術(shù)訪問、交流和軟件培訓(xùn),推進(jìn)了本課題學(xué)術(shù)創(chuàng)新,提高了課題成果的學(xué)術(shù)水平和影響力度,達(dá)到了技術(shù)共享的目的。
本課題從2010年立項(xiàng)以來,各子課題組經(jīng)過兩年的田野調(diào)查和語(yǔ)法標(biāo)注的實(shí)踐,積累了較為豐富的經(jīng)驗(yàn),也發(fā)現(xiàn)了存在的問題。為此,課題組于2013年1月份舉辦了中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注專題會(huì)議,專門探討民族語(yǔ)言標(biāo)注過程中遇到的問題和積累的經(jīng)驗(yàn)。該次會(huì)議的成果已編纂成專著《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究》,即將于2013年10月份在民族出版社出版。
課題組支持和鼓勵(lì)子課題成員參加國(guó)內(nèi)外相關(guān)的學(xué)術(shù)會(huì)議,先后參加的主要學(xué)術(shù)會(huì)議有“四川境內(nèi)的藏緬語(yǔ)國(guó)際學(xué)術(shù)研討會(huì)“、“當(dāng)代語(yǔ)言科學(xué)創(chuàng)新與發(fā)展國(guó)際研討會(huì)”、“第6屆國(guó)際彝緬語(yǔ)學(xué)術(shù)研討會(huì)”、“2012演化語(yǔ)言學(xué)國(guó)際研討會(huì)”、“第六界全國(guó)青年計(jì)算語(yǔ)言學(xué)會(huì)議”、“第11屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議”、“第2屆語(yǔ)言進(jìn)化與遺傳進(jìn)化國(guó)際會(huì)議”、“漢語(yǔ)方言類型研討會(huì)”等。
成果宣傳方面:課題組每年提交了工作簡(jiǎn)報(bào)。其中2011年開題論證會(huì)內(nèi)容在社科基金辦網(wǎng)站作為工作簡(jiǎn)報(bào)發(fā)布,2012年向社科基金辦提交了“走向創(chuàng)新:中國(guó)語(yǔ)言資源挖掘的新領(lǐng)域和新方法”外宣稿和年度簡(jiǎn)報(bào)。國(guó)家規(guī)劃辦(中宣部領(lǐng)導(dǎo))在2012年社科基金重大招標(biāo)項(xiàng)目的立項(xiàng)會(huì)議上,對(duì)本課題特別口頭提出表?yè)P(yáng),對(duì)本課題的重大價(jià)值和意義以及課題的執(zhí)行情況予以了肯定!吨袊(guó)社會(huì)科學(xué)報(bào)》2012年9月19日第358期發(fā)表了《打造信息時(shí)代的學(xué)術(shù)利器》,著重指出本課題意義重大:“當(dāng)代語(yǔ)言研究呼喚一種跨語(yǔ)言、跨方言的開放性研究,期待可供學(xué)科利用的多語(yǔ)種、多元化的真實(shí)文本資源。正是在這個(gè)意義上,利用專業(yè)軟件平臺(tái)開展民族語(yǔ)言語(yǔ)法文本標(biāo)注,不僅將拓展中國(guó)語(yǔ)言資源挖掘的新領(lǐng)域,而且將開辟新的研究范式,推進(jìn)語(yǔ)言研究的深度發(fā)展”。在昆明舉辦的“2013國(guó)際語(yǔ)言學(xué)高級(jí)研習(xí)班”上,課題組向參會(huì)的國(guó)內(nèi)外同行(包括美國(guó)少數(shù)民族語(yǔ)言研究院多位專家和中國(guó)臺(tái)北靜宜大學(xué)專家)全面介紹了本課題的設(shè)計(jì)思想、研究思路、技術(shù)方法以及階段成果,得到了與會(huì)者的高度好評(píng),擴(kuò)大了課題的影響力。
二、研究成果情況
1、已完成9部專著及相應(yīng)的數(shù)據(jù)庫(kù)(成果形式:專著/數(shù)據(jù)庫(kù))
本課題截至目前已有9種語(yǔ)言完成了語(yǔ)法標(biāo)注工作,在標(biāo)注數(shù)據(jù)庫(kù)的基礎(chǔ)上已經(jīng)撰寫成相應(yīng)的書稿。每部書稿的基本內(nèi)容包括:第一,該語(yǔ)言導(dǎo)論,介紹標(biāo)注語(yǔ)言的背景和語(yǔ)音、詞匯、語(yǔ)法特征。第二,20余篇約5-10萬(wàn)字語(yǔ)法標(biāo)注真實(shí)文本(即標(biāo)注熟語(yǔ)料,形態(tài)、語(yǔ)序、句法),并配以句對(duì)齊漢語(yǔ)譯文和全文譯文,多行對(duì)照總字?jǐn)?shù)達(dá)20余萬(wàn)字,是全書的主體。第三,全書文本詞匯索引和后記。每部專著約30萬(wàn)字,分別為:
(1)、江 荻:《藏語(yǔ)拉薩話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(2)、龍從軍:《藏語(yǔ)安多話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(3)、燕海雄:《彝語(yǔ)涼山話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(4)、楊將領(lǐng):《獨(dú)龍語(yǔ)獨(dú)龍江話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),30萬(wàn);
(5)、尹巧云:《德昂語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(6)、藍(lán)利國(guó):《壯語(yǔ)武鳴話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(7)、潘立慧:《黎語(yǔ)志強(qiáng)話語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(8)、白碧波:《哈尼語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
(9)、徐世璇:《土家語(yǔ)語(yǔ)法標(biāo)注文本》,專著/數(shù)據(jù)庫(kù),約30萬(wàn);
2、中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注平臺(tái)(成果形式:軟件)
本項(xiàng)目前期語(yǔ)言采用Toolbox軟件操作。由于SIL的Toolbox有兩方面缺陷:計(jì)算機(jī)內(nèi)碼層次太低,是基于DOS系統(tǒng)開發(fā)和改造的軟件,對(duì)多文字多字體操作缺乏兼容性,例如漢字處理仍然保留單八位底層編碼,造成半個(gè)漢字現(xiàn)象;同時(shí),該軟件英文版本,功能設(shè)置重復(fù),使用困難。為此,課題組開發(fā)出漢語(yǔ)版文本語(yǔ)法標(biāo)注平臺(tái)軟件,增加必要的輸入和輸出功能。這套軟件還包括分詞功能、詞典與文本互動(dòng)功能、字體設(shè)置(包括英語(yǔ)、漢語(yǔ)、音標(biāo)和其他民族文字)功能、隔行對(duì)照化整體移行功能等。目前,該軟件處于試用階段,正在完善隔行對(duì)照化、跳轉(zhuǎn)插詞、形態(tài)分析、深層形式和表層形式交互標(biāo)注等功能。
我們相信這套文本處理軟件將是一套適合中國(guó)少數(shù)民族語(yǔ)言或無文字語(yǔ)言全面開展語(yǔ)法-詞典研究的優(yōu)秀工具軟件,也是一種幫助研究者實(shí)現(xiàn)從文本編制語(yǔ)法詞典,又利用詞典自動(dòng)標(biāo)注文本的互動(dòng)分析工具。
3、《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注集》(成果形式:數(shù)據(jù)庫(kù))
《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注集》是本項(xiàng)研究的基礎(chǔ)工作。課題組建立三套完整的涵蓋了整個(gè)語(yǔ)法系統(tǒng)(詞法或形態(tài)、句法)的語(yǔ)法標(biāo)注集。實(shí)際上,由于各語(yǔ)言語(yǔ)法類型差異較大,按照語(yǔ)法差異類別可以分為苗瑤侗臺(tái)語(yǔ)、藏緬語(yǔ)、阿爾泰語(yǔ)(北方)三種類型,分別建立適合各類語(yǔ)言的標(biāo)注集。這三套語(yǔ)法標(biāo)注集由子課題組承擔(dān),要求全部按照國(guó)際規(guī)范用英語(yǔ)命名和縮略語(yǔ)注解,另外添加中文術(shù)語(yǔ)翻譯。具體要求包括詞類標(biāo)記、語(yǔ)法詞小類標(biāo)記(如語(yǔ)氣詞、代詞等)、形態(tài)標(biāo)記(如復(fù)數(shù)詞綴、時(shí)態(tài)詞綴等)、格標(biāo)記、體貌標(biāo)記、名詞化標(biāo)記、助詞標(biāo)記等。對(duì)于整套叢書,要求語(yǔ)法標(biāo)記保持一致,每個(gè)語(yǔ)言都從子課題語(yǔ)法標(biāo)注集選取標(biāo)記,形成標(biāo)準(zhǔn)化和規(guī)范化的標(biāo)注集,為中國(guó)民族語(yǔ)言研究奠定堅(jiān)實(shí)的基礎(chǔ)。
4、《中國(guó)民族語(yǔ)言語(yǔ)法信息電子詞典》(成果形式:數(shù)據(jù)庫(kù))
本課題每種語(yǔ)言的文本標(biāo)注都需要建立交互用電子詞典。因此,詞典是本課題的一項(xiàng)重要研究成果。這些詞典具有以下內(nèi)容:第一,雙語(yǔ)對(duì)照或多語(yǔ)對(duì)照(部分語(yǔ)言可以添加傳統(tǒng)文字,例如藏文、彝文、蒙古文等),即要求詞典包含民族語(yǔ)詞條,每個(gè)詞條用漢語(yǔ)(和/或英語(yǔ))注釋,注釋詞條將作為文本自動(dòng)標(biāo)注的對(duì)照詞條;第二,詞典規(guī)模在5000條至數(shù)萬(wàn)條。本項(xiàng)研究的語(yǔ)法標(biāo)注軟件平臺(tái)能為詞典與文本互動(dòng)提供了交互功能,即任何時(shí)候都可以從文本修改增刪詞典的詞條,擴(kuò)大詞條規(guī)模。第三,所有語(yǔ)言詞典都要添加語(yǔ)法標(biāo)記,語(yǔ)法標(biāo)記需要事先植入詞典,其中語(yǔ)法屬性包括每個(gè)詞的詞類,所有可能的語(yǔ)法詞(虛詞)的語(yǔ)法標(biāo)記,人稱代詞等封閉詞類的標(biāo)記等。
5、《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究》(成果形式:專著)
課題組于2013年1月份舉辦了中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注專題會(huì)議,探討民族語(yǔ)言語(yǔ)法現(xiàn)象和語(yǔ)法標(biāo)注過程中遇到的問題,交流經(jīng)驗(yàn)。在這次會(huì)議的基礎(chǔ)上,課題組成員積極撰寫研究文章。目前,書稿已經(jīng)提交民族出版社,全書約30萬(wàn)字,目前正在編輯印刷中。
序號(hào) |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時(shí)間 |
字?jǐn)?shù) |
轉(zhuǎn)引 |
1 |
中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注研究 |
課題組 |
論著集 |
民族出版社 2013年10月 |
30萬(wàn) |
|
2 |
中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注軟件平臺(tái) |
課題組 |
軟件 |
1.0試用版 |
1件 |
|
3 |
東亞語(yǔ)言語(yǔ)音詞匯數(shù)據(jù)檢索系統(tǒng)的設(shè)計(jì)與功能概述 |
江荻 |
論文 |
《云南師范大學(xué)學(xué)報(bào)》2011年第2期 |
8000 |
|
4 |
國(guó)際音標(biāo)輸入軟件的設(shè)計(jì)與實(shí)現(xiàn) |
江荻,劉匯丹,吳兵 |
論文 |
《中文信息學(xué)報(bào)》2011第2期 |
9000 |
|
5 |
重音、重調(diào)和聲調(diào) |
江荻 |
論文 |
《語(yǔ)言教學(xué)與研究》2011第4期 |
10000 |
|
6 |
藏語(yǔ)不規(guī)則動(dòng)詞的信息標(biāo)注方法 |
江荻 |
論文 |
《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年 |
9000 |
|
7 |
藏語(yǔ)la don格標(biāo)記新分類 |
龍從軍 |
論文 |
《博士論壇論文集》,中央民族大學(xué)出版社,2012年 |
9000 |
|
8 |
la don分類標(biāo)準(zhǔn)及識(shí)別標(biāo)注研究 |
龍從軍 |
論文 |
《少數(shù)民族青年計(jì)算語(yǔ)言學(xué)論文集》,青海出版社,2012年 |
8000 |
|
9 |
簡(jiǎn)析藏語(yǔ)中的指小后綴 |
龍從軍 |
論文 |
《民族所青年論壇論文集》,社會(huì)科學(xué)文獻(xiàn)出版社,2012年 |
7000 |
|
10 |
基于Unicode的藏文轉(zhuǎn)寫拉丁算法 |
康才畯,江荻 |
論文 |
《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展》,清華大學(xué)出版社,2011年 |
8000 |
|
11 |
藏文國(guó)際編碼的發(fā)展與技術(shù)應(yīng)用 |
吳兵,江荻 |
論文 |
9000 |
|
|
12 |
彝語(yǔ)派生名詞構(gòu)詞法研究 |
馬輝,江荻 |
論文 |
《民族語(yǔ)文》2012年第3期31-38頁(yè) |
12000 |
|
13 |
有關(guān)計(jì)算機(jī)數(shù)據(jù)處理的記音規(guī)范建議 |
潘悟云 江荻 麥耘 |
論文 |
民族語(yǔ)文2012年第5期3-7頁(yè) |
8000 |
|
14 |
獨(dú)龍語(yǔ)個(gè)體量詞的產(chǎn)生和發(fā)展 |
楊將領(lǐng) |
論文 |
《民族語(yǔ)文》 2011年第6期 |
9000 |
|
15 |
內(nèi)爆音聲母探源 |
黃行 |
論文 |
《民族語(yǔ)文》2012年第2期 |
8000 |
|
16 |
相同語(yǔ)音范疇類型的跨語(yǔ)言比較研究 |
黃行 |
論文 |
《中國(guó)語(yǔ)言學(xué)報(bào)》第15期,商務(wù)印書館 2012年 |
12000 |
|
17 |
白語(yǔ)方言否定標(biāo)記的特征與來源 |
張軍 |
論文 |
《大理學(xué)院學(xué)報(bào)》 2012年第7期 |
7000 |
|
18 |
藏語(yǔ)文本信息處理的幾個(gè)關(guān)鍵問題 |
龍從軍 |
論文 |
科研信息化技術(shù)與應(yīng)用. 2012, 3(4): 51–58. |
11000 |
|
19 |
論漢藏語(yǔ)言硬腭塞音的來源 |
燕海雄 |
論文 |
《民族語(yǔ)文》2011年第5期 |
8000 |
|
20 |
藏語(yǔ)判斷、存在動(dòng)詞識(shí)別策略 |
李琳,龍從軍 |
論文 |
中文信息學(xué)報(bào)(已接受) |
9000 |
|
21 |
基于詞位的藏文黏寫形式的切分 |
康才畯,龍從軍,江荻 |
論文 |
計(jì)算機(jī)工程與應(yīng)用(已接受) |
7000 |
|
22 |
藏語(yǔ)句法功能組塊的邊界識(shí)別 |
李琳,龍從軍,江荻 |
論文 |
第十二屆全國(guó)計(jì)算語(yǔ)言學(xué)會(huì)議,2013年10月10-12日,蘇州大學(xué) |
7000 |
|
23 |
基于條件隨機(jī)場(chǎng)的藏文人名識(shí)別研究 |
康才俊,龍從軍,江荻 |
論文 |
“2013亞洲語(yǔ)言信息處理國(guó)際會(huì)議”,8月17日-19日,新疆師范大學(xué) |
8000 |
|
24 |
壯語(yǔ)的領(lǐng)屬結(jié)構(gòu) |
藍(lán)利國(guó) |
論文 |
漢語(yǔ)方言類型研討會(huì)暨第一屆方言語(yǔ)音與語(yǔ)法論壇,2012年8月7-9日,復(fù)旦大學(xué) |
9000 |
|
25 |
藏東南地區(qū)藏緬語(yǔ)領(lǐng)屬結(jié)構(gòu)現(xiàn)象 |
江荻 |
論文 |
漢語(yǔ)方言類型研討會(huì)暨第一屆方言語(yǔ)音與語(yǔ)法論壇,2012年8月7-9日,復(fù)旦大學(xué) |
|
|
26 |
藏語(yǔ)拉薩話語(yǔ)法標(biāo)注文本 |
江荻 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
27 |
藏語(yǔ)安多話語(yǔ)法標(biāo)注文本 |
龍從軍 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
28 |
彝語(yǔ)涼山話語(yǔ)法標(biāo)注文本 |
燕海雄,馬輝 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
29 |
獨(dú)龍語(yǔ)獨(dú)龍江話語(yǔ)法標(biāo)注文本 |
楊將領(lǐng) |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
30 |
德昂語(yǔ)語(yǔ)法標(biāo)注文本 |
尹巧云,劉巖 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
31 |
壯語(yǔ)武鳴話語(yǔ)法標(biāo)注文本 |
藍(lán)利國(guó) |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
32 |
黎語(yǔ)志強(qiáng)話語(yǔ)法標(biāo)注文本 |
潘立慧 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
33 |
哈尼語(yǔ)語(yǔ)法標(biāo)注文本 |
白碧波,許鮮明 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
34 |
土家語(yǔ)語(yǔ)法標(biāo)注文本 |
徐世璇 |
專著 數(shù)據(jù)庫(kù) |
專著排版中 |
30萬(wàn) |
|
(課題組供稿)