一、 研究進(jìn)展情況
1、課題開題與子課題進(jìn)展情況
研究計(jì)劃順利執(zhí)行,各子課題取得進(jìn)展。
2016年4月1日,“《格薩爾》說唱語(yǔ)音的自動(dòng)識(shí)別與格薩爾學(xué)的創(chuàng)新發(fā)展”項(xiàng)目啟動(dòng)暨專家咨詢會(huì)在西藏大學(xué)召開。來自西藏本地和北京的7位專家在認(rèn)真聽取項(xiàng)目總體情況和研究方案優(yōu)化情況,以及各個(gè)子課題的匯報(bào)情況后,紛紛發(fā)表意見,提出建議,充分肯定并高度評(píng)價(jià)《格薩爾》項(xiàng)目,給予項(xiàng)目組成員以極大的幫助和鼓勵(lì)。各子課題分別消化吸收了專家咨詢會(huì)上各位專家的意見建議。項(xiàng)目首席專家召開了子課題負(fù)責(zé)人第一次例會(huì),各子課題負(fù)責(zé)人分別匯報(bào)了修訂完善后的研究方案和研究計(jì)劃,并進(jìn)行了相關(guān)任務(wù)的對(duì)接。一年多來,各子課題均取得了基礎(chǔ)性的進(jìn)展:
子課題一“基于文獻(xiàn)計(jì)量分析的《格薩爾》研究歷史、現(xiàn)狀和趨勢(shì)”。一是定制專門的文獻(xiàn)計(jì)量分析軟件工具,包括基于文獻(xiàn)計(jì)量學(xué)方法的論文形式和關(guān)鍵詞內(nèi)容分析工具研發(fā),以及基于詞向量的短文本分析技術(shù)的文獻(xiàn)內(nèi)容挖掘工具研發(fā),已經(jīng)運(yùn)用其他領(lǐng)域的數(shù)據(jù)集進(jìn)行了多次測(cè)試和優(yōu)化,很快即可在本項(xiàng)目應(yīng)用;二是篩選《格薩爾》研究的學(xué)術(shù)文獻(xiàn),尤其是藏文文獻(xiàn),已經(jīng)選出187篇藏文研究論文。
子課題二“《格薩爾》說唱語(yǔ)音的聲學(xué)和韻律建模及音字轉(zhuǎn)換研究”。一是錄制了斯塔多吉說唱本4部,計(jì)200多個(gè)小時(shí);二是對(duì)多語(yǔ)言言語(yǔ)識(shí)別方法開展了相關(guān)研究,提出了基于多尺度特征的語(yǔ)音識(shí)別建模方法、基于參數(shù)共享神經(jīng)網(wǎng)絡(luò)的雙語(yǔ)語(yǔ)音識(shí)別建模方法;三是基于言語(yǔ)中的多層次線索,對(duì)融合發(fā)音姿態(tài)信息的深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別建模方法進(jìn)行了探索;四是提出了基于深層循環(huán)條件隨機(jī)場(chǎng)的中文自動(dòng)分詞方法并對(duì)藏語(yǔ)的分詞和注音進(jìn)行了探索,實(shí)現(xiàn)了藏文分詞以及藏語(yǔ)方言國(guó)際音標(biāo)轉(zhuǎn)換的系統(tǒng)。
子課題三“《格薩爾》的多媒體數(shù)據(jù)庫(kù)及文本自動(dòng)標(biāo)引和知識(shí)檢索系統(tǒng)”。一是建立了54049詞條的藏語(yǔ)短語(yǔ)詞條庫(kù)和133226詞條的藏語(yǔ)詞語(yǔ)庫(kù),為藏文連續(xù)文本的切分提供了依據(jù),并對(duì)藏文虛詞的自動(dòng)識(shí)別方法和技術(shù)進(jìn)行了探索;二是結(jié)合子課題一的“短文本分析技術(shù)”和子課題二的“基于深層循環(huán)條件隨機(jī)場(chǎng)的中文自動(dòng)分詞方法”,設(shè)計(jì)并初步論證了中文文獻(xiàn)內(nèi)容的自動(dòng)標(biāo)引和檢索的技術(shù)路線。
子課題四“基于《格薩爾》知識(shí)圖譜的格薩爾學(xué)創(chuàng)新發(fā)展”。一是在分析格薩爾學(xué)的成長(zhǎng)特征和成長(zhǎng)空間的基礎(chǔ)上,從情報(bào)學(xué)的多個(gè)視角探討了格薩爾學(xué)的多方面成長(zhǎng)機(jī)制,為前面三個(gè)子課題的研究目標(biāo)實(shí)現(xiàn)提供進(jìn)一步的參考;二是在西藏大學(xué)組建了“格薩爾史詩(shī)研究科研創(chuàng)新團(tuán)隊(duì)”。
2、調(diào)查研究及學(xué)術(shù)交流情況
調(diào)查研究工作主要是對(duì)非在線的藏文有關(guān)文獻(xiàn)的調(diào)查篩選、《格薩爾學(xué)集成》(5卷)等早期文獻(xiàn)的復(fù)制、在線中英文有關(guān)文獻(xiàn)的抓取等。學(xué)術(shù)交流還僅限于項(xiàng)目組內(nèi)部,等基礎(chǔ)性研究更加充分并在說唱語(yǔ)音自動(dòng)識(shí)別有重大突破后再進(jìn)行國(guó)內(nèi)外學(xué)術(shù)交流活動(dòng)。
3、成果推介與宣傳
成果宣傳推薦方面,報(bào)送了兩期《工作簡(jiǎn)報(bào)》,因尚處基礎(chǔ)研究階段,還沒有舉行成果發(fā)布會(huì)、沒有向國(guó)家社科基金?陡。
二、 研究成果情況
代表性成果:實(shí)現(xiàn)了藏文分詞以及藏文文本到藏語(yǔ)方言國(guó)際音標(biāo)轉(zhuǎn)換的系統(tǒng)。
要實(shí)現(xiàn)藏語(yǔ)方言語(yǔ)音的識(shí)別和分析,需要以國(guó)際音標(biāo)IPA的形式分析藏文文本到藏語(yǔ)方言的發(fā)音,構(gòu)建不同藏文方言由文本到發(fā)音的轉(zhuǎn)換對(duì)照表。該系統(tǒng)由藏文文本分詞系統(tǒng)和藏語(yǔ)方言國(guó)際音標(biāo)轉(zhuǎn)換系統(tǒng)兩個(gè)子系統(tǒng)構(gòu)成,后者又包括藏文詞匯國(guó)際音標(biāo)轉(zhuǎn)換系統(tǒng)和藏文單音節(jié)方言國(guó)際音標(biāo)轉(zhuǎn)換系統(tǒng)兩個(gè)部分。
藏語(yǔ)在書面語(yǔ)上是統(tǒng)一的,即藏語(yǔ)方言在書寫形式上是一樣的。藏語(yǔ)主要?jiǎng)澐譃樾l(wèi)藏、康以及安多三大方言。不同的藏語(yǔ)方言在語(yǔ)音上體現(xiàn)在多個(gè)方面,主要特性包括:方言是否有聲調(diào)、是否有清濁聲母的對(duì)立以及輔音韻尾是否多寡。首先,基于《格西曲扎藏文辭典》中的藏文詞匯,經(jīng)人工整理、挑選和校對(duì),最終獲得七萬(wàn)五千條藏文詞匯的電子詞典。分詞詞典的每條詞匯都包含藏文、對(duì)應(yīng)的中文、部分詞匯帶有詞性以及對(duì)應(yīng)的拉丁形式;诟裰~添接法,將詞典中的名詞等轉(zhuǎn)換為對(duì)應(yīng)格的形式,然后將名詞的格形式作為詞典詞條進(jìn)行詞典的擴(kuò)充,最后在分詞時(shí)使用擴(kuò)充后的詞典,實(shí)現(xiàn)對(duì)緊縮詞的識(shí)別。其次,基于對(duì)藏文三大方言六大話系的分析,歸納出了拉薩、日喀則、德格、巴塘、澤庫(kù)和拉卜楞等六個(gè)話系的藏文文本到國(guó)際音標(biāo)的聲母、韻母以及聲調(diào)的轉(zhuǎn)換對(duì)照表。
該系統(tǒng)的實(shí)現(xiàn),將有力地推進(jìn)針對(duì)斯塔多吉說唱語(yǔ)音的自動(dòng)識(shí)別和音字轉(zhuǎn)換的研究工作。
課題組供稿