一、 研究進展情況
1、課題開題與子課題進展情況
① 研究計劃總體執(zhí)行情況及各子課題進展情況(如下圖)
該研究的目標是針對中國方言區(qū)英語學習者的發(fā)音特點和偏誤類型,開展一系列的跨學科研究,提出可以用于計算機口語評測與課堂學習的矯正方法,以針對不同方言區(qū)英語學習者進行發(fā)音評測和制定個性化的學習方案,同時為方言區(qū)英語口語能力評測提供科學的依據。根據上圖的研究路線,本課題研究凝練出3個關鍵性研究問題,設置了四個子課題(如下圖)。目前,四個子課題均按照進度執(zhí)行。
子課題1:中國方言區(qū)英語學習者大規(guī)模語音庫與標注系統(tǒng)構建(負責人:賈媛)
完成了語音總體方案設計,完成了東北(200人)、山東(200人)、寧波(50人)、廈門(50人)和長沙(50人)等方言區(qū)的語音錄制,共550人,錄制了每人約10個小時,合計約5000小時的語音。完成任務過半。
1.1 語音庫與標注系統(tǒng)總體方案制訂
中國社會科學院語言所負責完成了語音庫總體方案制訂,包括方言區(qū)分布確認、英語語音庫的發(fā)音文本設計、語音庫錄音和標注規(guī)范的制訂。
1.1.1 方言區(qū)分布(如下圖)
1.1.2 語料庫發(fā)音文本設計
英語語料包括英語單詞、詞組、短語、句子和語篇(如下圖)。為了便于開展英漢對比研究,我們同時還采集了漢語的語料,包括普通話和方言的單字調、兩字組、三字組、句子和語篇。
1.1.3 錄音平臺(如下左圖)和錄音數據自動切分
錄音時,發(fā)音人配戴耳麥(如下右圖),坐在電腦屏幕前,朗讀顯示在電腦屏幕上的單詞、句子或篇章,錄音由英語專業(yè)的研究生操作,錄制完成需進行聽音檢查。
對所有錄音提供自動音段切分程序
1.1.4 完成方言區(qū)英語語音標注系統(tǒng)構建
音段標注:在對聲音文件進行標注時,在音段標注上,首先采用自動切分軟件,對英語單詞、句子和篇章進行自動切分,不僅切分單詞邊界,也切分音素邊界。標注符號采用ARPABET符號集。對于方言普通話的切分,首先采用自動切分程序,對詞邊界和聲韻邊界進行自動切分,然后用手工對邊界進行校準和修改。方言的切分主要依靠手工,符號集采用SAMPA。
超音段標注:對英語發(fā)音的超音段特征的標注,選用IViE語調標注系統(tǒng)和ToBI語調標注系統(tǒng)相結合的系統(tǒng)。IViE系統(tǒng)是由ToBI發(fā)展而來的,但又有所區(qū)別,兩個系統(tǒng)的結合方式,主要是將ToBI中的間斷指數層加入IViE標注系統(tǒng)中,標注層級包括:
(1)正則層(orthographic tier):將說話人所說的正確詞語標記下來;
(2)音素層(phoneme tier):對所有元音和輔音邊界進行標注;
(3)間斷指數層(break index tier):對語調短語、中間短語和詞邊界進行標注,其中4、3、1分別代表前面3種韻律邊界;
(4)突顯層(prominence tier):標記突顯音節(jié),突顯的音節(jié)用“P”表示,并標記在重讀元音的中間位置;
(5)目標層(target tier),即語音層(phonetic tier):對語調的變化進行語音上的描寫。
1.1.5 錄音和標注培訓
社科院負責對各個課題組進行錄音和標注培訓,系統(tǒng)講解實驗語音學的基本理論知識和標注分析方法。標注人員經過反復練習,經過一致性測試后方可進行標注,以保證錄音和標注的質量。
1.2 東北方言區(qū)數據收集和標注
東北方言區(qū)課題組負責東北方言區(qū)英語學習者語音庫的建立和研究。選取了東北具有代表性的四個城市—長春、哈爾濱、沈陽、大連—收集錄音語料,每個城市選取發(fā)音人50名,男女各半,四個城市共200人。每個城市的50人中,有20人每人發(fā)音時長約為15個小時,其余30人每人發(fā)音時長約為5個小時。發(fā)音人是來自上述四個城市的吉林大學本科生和研究生。
完成了所有錄音的音段切分工作,并開展了大規(guī)模的標注,在標注基礎上開展了語音偏誤特征分析。
1.3 山東方言區(qū)數據收集和標注
山東課題組自立項以來,收集并建立了200人的山東方言區(qū)英語學習者語音庫。建庫采納了山東方言研究者錢曾怡(1985,2001)對山東方言區(qū)的劃分,即東區(qū)與西區(qū),東西區(qū)又各下分兩個片,即東萊片和東濰片,西齊片和西魯片。我們從這四個片的代表縣市尋找發(fā)音人,盡量按男女人數相等的原則遴選發(fā)音人。發(fā)音人皆為某高校的在校大學生和研究生。錄音歷時一年半的時間,現已全部完成。每片男女各25人,共采集200名發(fā)音人的錄音資料,每人錄音時長達10小時。
完成了錄制的語音數據的音段切分,開展了大規(guī)模的音段標注標注,在標注基礎上開展了語音偏誤特征分析。
1.4 寧波方言數據收集和標注
寧波方言研究收集了50名被試(男女各25人)、人均錄音時長在8-12小時之間的英、漢口語語料(漢語又分普通話和寧波話)。提取語料的文本涵蓋了詞、句和短文,形式以朗讀和看圖會話為主。為了盡可能地排除干擾因素,被試來源地域主要被限制在寧波老城區(qū),以規(guī)避李榮在《寧波方言詞典》(1997)中所定義的語音變體帶來的差異;受試對象基本來自在校大學生和研究生,群體年齡控制在19-28周歲之間,弱化新、老寧波話的差別;選取的發(fā)音人多具有10年以上的英語學習經歷,語言水平中上。漢語普通話相當于3級甲等,在日常生活中可自如完成普通話和寧波話之間的語碼轉換,父母為寧波本地居民或長期生活在寧波地區(qū)的方言使用者。
完成了錄制的語音數據的音段切分,開展了大規(guī)模的音段標注標注,在標注基礎上開展了語音偏誤特征分析。
1.5 長沙方言數據收集和標注
長沙方言研究收集了50名被試(男女各25人)、人均錄音時長在8-12小時之間的英、漢口語語料(漢語又分普通話和長沙話)。提取語料的文本涵蓋了詞、句和短文,形式包括朗讀、看圖會話和即興演講。為了盡可能地排除年齡、地域因素造成的干擾,被試基本上是來自長沙市區(qū)的來自在校大學生和研究生,群體年齡控制在19-28周歲之間,以規(guī)避《長沙方言詞典》(1998)中所定義的語音變體帶來的差異;選取的發(fā)音人多具有10年以上的英語學習經歷,語言水平中上。漢語普通話相當于3級甲等,在日常生活中可自如完成普通話和長沙話之間的語碼轉換,父母為長沙本地居民或長期生活在長沙地區(qū)的方言使用者。
目前已完成了10人語音數據的音段切分工作,并對已切分音段進行音段標注,在標注基礎上開展了英語單元音偏誤特征分析。
1.6 福州方言數據收集和標注
構建了福州方言區(qū)英語學習者英語、福州話及普通話語音數據庫。發(fā)音人為43名熟練使用福州方言的在校本科層次及碩士研究生層次的英語學習者。語料采集歷時一年時間,現已全部完成,每個發(fā)音人的錄音時長超過10小時。語料除了各個子課題使用的通用語料之外,還錄制了福州方言。標注方面,利用Praat軟件,綜合ToBI和IViE標注系統(tǒng)的優(yōu)勢,根據需要對采錄的語音材料進行了嘗試性的分級標注,并對標注的文件進行了初步的數據處理,分析福州方言區(qū)英語學習者在音段層面與超音段層面的語音特征,對比總結其與本族語者語音系統(tǒng)的異同點,探究學習者英語語音習得偏誤及福州話對英語語音習得的遷移效應。研究報告還在整理中。
1.7 英語母語者語音庫收集和標注
社科院課題組收集了英國和美國英語母語發(fā)音人各10人的數據。完成了數據的自動音段切分標注和部分韻律標注。
子課題2:中國方言區(qū)英語學習者語音偏誤特征與自動標注系統(tǒng)構建(負責人:胡方)
我國的英語教育十分重視詞匯、語法等語言形式,而對語音、語調的作用重視不夠,從而導致我國英語學習者發(fā)音不準確,語調不連貫,難以用英語進行口語交流。建立中國英語學習者語音庫,依據聲學指征分析學生的英語發(fā)音,不僅可以彌補單純依靠聽辨感知學習語音的不足,也為語音學、音系學及二語語音習得研究提供全新的研究視角,對二語習得研究、外語教學和計算機輔助教學系統(tǒng)具有重要的理論價值和實際意義。在方言區(qū)英語學習者語音庫基礎上,課題組陸續(xù)開展了語音偏誤分析,取得了一批階段性成果。
2.1 東北方言區(qū)課題組語音研究
對東北方言區(qū)英語學習者的語音偏誤特征進行聲學研究,主要從音段和超音段兩個層面進行。音段層面考察輔音和元音的發(fā)音偏誤。輔音我們用嗓聲起始時間(VOT),強頻集中區(qū)等聲學參數考察。元音用第一、第二或者第三共振峰等參數考察。超音段層面主要考察學習者在短語和句子層面的發(fā)音特征,包括重音分布、停頓、語調短語切分和邊界調類型等。我們將東北方言區(qū)發(fā)音人的聲學參數與標準英語發(fā)音人的聲學參數進行系統(tǒng)的對比分析,從而發(fā)現學習者聲學特征與標準英語發(fā)音人的聲學特征之間的差異,找出學習者的發(fā)音偏誤,進而探討普通話以及東北方言的某些特殊音段特征如何影響學習者成功習得英語的元音和輔音,方言聲調系統(tǒng)以及普通話聲調系統(tǒng)如何影響學習者正確習得英語語調。
2.2 山東方言區(qū)語音研究
山東方言區(qū)英語學習者語音庫是目前在全國單方言區(qū)建庫人數最多的,其研究的切入點也比較有規(guī)律性。在語音習得、聲調習得以及英漢語音對比方面都有涉及。我們也將研究的成果與其他方言區(qū)進行交流,如和東北方言區(qū)英語學習者語音庫互換研究成果,交流所開展的研究工作,并就山東方言語音習得特點與東北方言區(qū)英語學習者習得特點進行對比,以期發(fā)現異同。同時,我們還共享了目前各自庫中所有的本族語者語音資料。
目前我們已對山東方言兩區(qū)四片的英語學習者的四個前元音習得做了較為全面的研究,與美國本族語者的發(fā)音進行了對比,初步總結出了山東方言英語學習者語音學習的規(guī)律和特點。研究采納了實驗語音手段,得出的結果具有客觀性與可信性。
2.3 寧波方言區(qū)語音研究
分布在浙江寧波、舟山地區(qū)的寧波方言以其“石骨鐵硬”的發(fā)音風格、個性化的語音特征和生動形象地表達方式成為吳語太湖片區(qū)具有代表性的重要方言。對現行語言政策和語言生態(tài)環(huán)境下的方言區(qū)英語學習者而言,來自母語因素的影響更為復雜。近年來,隨著語言研究視角的擴展和傳統(tǒng)語音教學困境的凸顯,對學習者獨特的語音系統(tǒng)和節(jié)奏韻律模式描述和解讀獲得了更多的關注。
初步研究成果顯示,寧波方言區(qū)英語學習者的語音產出從音段、韻律節(jié)奏到語調型層面與英語本族語使用者間存在系統(tǒng)的差異。中介語體現出的語音特征明顯受到學習者母語,特別是方言方音的遷移。語料庫技術和實驗方法的介入不僅使語音教學和研究從對傳統(tǒng)“口耳之學”的感性經驗的依賴轉向基于大數據統(tǒng)計的理性分析成為可能,還可將研究得發(fā)現充分地融入教學實踐環(huán)節(jié),借助參數的對比和試錯,對語音偏誤加以有效的預判,突出教學重點,形成針對性的教學策略,服務于以提高溝通效能為核心的方言區(qū)的英語語音教學。
2.4 長沙方言語音研究
長沙方言是新湘語的代表方言,屬于長益片長株潭小片,主要使用于長沙市區(qū)和長沙縣。由于果攝字元音的高化演變,長沙方言的元音系統(tǒng)屬于偏后型元音三角(貝先明,2008),其后元音與屬典型元音四角的美式英語具有更大的相似度,而前元音與美式英語具有更小的相似度,因此是元音偏誤較為理想的研究材料。
初步研究成果顯示,長沙方言區(qū)英語學習者難以區(qū)分英語中的/i-?/、/?-u/等相似元音對,且與英語本族語者在個體元音發(fā)音上有較大差異(如下圖)。
長沙被試在發(fā)英語/? u/時傾向于用母語中的/u/代替;同時,/i/ /?/ /?/在聲學空間的高低維度上與方言中的相似元音無明顯差異。研究結果對課堂英語教學有一定的指導意義:傳統(tǒng)的英語語音教學受對比語言分析理論影響,著重于母語和外語發(fā)音有差異的部分,但本研究結果為語音學習模型提供了實證支持,發(fā)現學習者產出與母語相似的英語元音時,會因范疇構建過程的同化機制產生偏誤。因此,教學的側重點應轉移到相似元音上,落實到長沙地區(qū)英語語音教學中,則應重點關注/i u ? ?/的發(fā)音。
2.5 方言區(qū)英語學習者韻律自動標注系統(tǒng)構建研究
韻律標注包括韻律邊界和音高事件(重音、邊界調等)的標注。隨著語料庫規(guī)模的增大,人工標注的工作量急劇增加,標注成本較大。此外,韻律標注具有一定的主觀性,保證不同標注人員之間標注結果的一致性較為困難。因此,采用計算機技術自動而準確地進行語料的標注是本課題的一個重要研究工作。
課題組針對韻律邊界的標注,提出了基于隱馬爾科夫模型(Hidden Markov Model; HMM)聲學建模與狀態(tài)解碼的自動韻律標注方法。采用該方法用于韻律自動標注的優(yōu)勢包括:在基于聲學特征分布進行韻律邊界標注時可以充分考慮其他已知標注信息對于分布參數的影響;通過整句解碼的方式確定韻律邊界標注結果,考慮了句中不同位置處韻律邊界標注間的相關性;使用與語音識別類似的算法框架,可以借鑒語音識別中較為成熟的模型訓練與解碼算法。
在具體實現中:提出基于窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統(tǒng)中不同特征與上下文信息對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基于維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分布的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在標準英語庫Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分布取得了79.6%和81%的標注F-score。
課題組將利用方言區(qū)英語學習者語音庫,對現在提出的韻律邊界分類模型進行改進。
子課題3:中國方言區(qū)英語學習者語音與音系學習機制研究(負責人:宋大為)
課題組開展了英語學習者的元音產出、發(fā)音和感知空間關系的研究。目前完成了數據收集和初步的分析。創(chuàng)新在于從三個空間維度,對英語學習者的語音發(fā)音生理、聲學、和感知數據進行采集和分析,深入探索學習者的語音習得機制。本項目利用電磁發(fā)音儀釆集學習者的英語和母語的元音發(fā)音運動數據,以及英語本族語者的運動數據,用科學、直觀的方法對比和分析不同發(fā)音人的生理發(fā)音特點,科學構建發(fā)音人在元音發(fā)音中的舌位運動空間。并同時結合感知實驗的多模態(tài)研究方法,深入和全面地挖掘學習者的音位范疇習得特征。
3.1 L1 和L2的EMA英語數據采集
本項目利用電磁發(fā)音儀(Electromagnetic Articulography; EMA)釆集學習者的英語和母語的元音發(fā)音生理運動數據,以及英語本族語者的運動數據,用科學、直觀的方法對比和分析不同發(fā)音人的生理發(fā)音特點,科學構建發(fā)音人在元音發(fā)音中的舌位運動空間。另外,基于聲學數據,即元音的共振峰F1、F2和F3數值,構建聲學元音圖。通過對比中國學習者和英語本族語者的英語元音聲學特征、以及學習者的母語方言聲學特征,分析和歸納學習者的英語元音偏誤特點,探究英語產出和方言母語間的關聯性。
EMA的采集系統(tǒng)為德國引進的Carsten AG500儀器,錄音采樣率為200赫茲。每次錄音共需用到9個傳感器(如下圖),其中6個傳感器分別要粘貼在每位發(fā)音人的舌根、舌體、舌尖、下齒齦、下唇和上唇位置;另外3個傳感器分別粘貼在發(fā)音人的鼻梁、左耳根和右耳根位置,作為對數據進行頭部校準處理的參考點,數據釆集時要求發(fā)音人語速較慢,發(fā)音清晰。
電磁發(fā)音儀可以讓人們更直觀地跟蹤發(fā)音時舌位的運動情況。通過構建發(fā)音人的元音發(fā)音生理空間對比英美本族語者和學習者的舌頭運動情況(如下左圖)和舌頭位置(如下右圖)。
3.2 感知實驗和數據處理
本部分研究將學習者的發(fā)音語料作為感知實驗中的刺激音,并請25名英語母語者(包括英國人和美國人)參與對學習者的元音發(fā)音進行了聽辨實驗和評分實驗。感知實驗研究用Eprime2.0軟件設計和完成。
感知實驗1為聽辨實驗,要求英語母語者每聽到一個刺激音后,從備選單詞中,選出所感知到的單詞。實驗2為評分實驗,要求英語母語者對聽到的每個刺激音中的元音發(fā)音進行評分。
3.3聲學錄音和數據處理
本部分研究通過中國社科院語言所語音室的專業(yè)錄音軟件以44.1 KHZ的采樣率,采集了發(fā)音人的英語發(fā)音語料,語料中涵蓋了英語中的18個單雙元音,包括11個單元音/?/,/?/,/ɑ/,/?/,/u/,/?/,/i/,/?/,/?/,/?/,/?:/和6個雙元音/a?/,/??/,/e?/,/a?/,/o?/,/ju/。每個元音都在一個真實的英語單音節(jié)單詞中,單詞大多都是以阻塞音或摩擦音作為首尾輔音。
通過Praat腳本(熊子瑜2016)自動提取到每個單詞元音穩(wěn)定段上10個等分點的F1,F2和F3數據。接下來,我們將第3-8點上的F1,F2和F3值分別求均值,作為代表該元音音質的共振峰數據,這樣在一定程度上可以去除音節(jié)首尾輔音對元音共振峰的影響。
子課題四:中國方言區(qū)英語學習者語音學習策略與應用平臺研究(負責人:顧曰國)
現代信息技術與課堂教學的整合是我國英語教育改革中的重要問題,新的教學模式實現了(1)以學生為中心,使學習者有了更多自主學習和合作學習的機會;(2)教師利用計算機輔助交流平臺能更好地監(jiān)測學生的發(fā)展,獲取學生的反饋信息,增強課堂模式的互動性;(3)移動互聯網技術的發(fā)展,提高了資源的共享和推廣,使得在線學習成為未來發(fā)展趨勢。大城市學校的現代化語音教育手段可以帶動偏遠地區(qū)的課堂教學,縮小教學水平上的差距,實現教育公平化。信息交互平臺的多元化和現代化特征有利于推動我國的外語教育的改革和發(fā)展。
研究創(chuàng)新處在于推動現代化科技成果在教學應用中的實踐,使科技創(chuàng)新更好地服務于社會需求具有重要的理論和現實意義。課堂將3D動態(tài)發(fā)音可視化模型、自動語音評測系統(tǒng)、訓練語音感知和產出的APP軟件應用于語音教學課堂中,促進傳統(tǒng)課堂向多元化、多模態(tài)的發(fā)展。學習者在多模態(tài)的信息交流平臺和模擬語言情境中,學習、體驗和實踐知識,豐富語音課堂的教學模式,調動學生的積極性,克服傳統(tǒng)語音課堂中形式單一、內容抽象、學生缺乏興趣的問題。為未來更多現代信息技術與課堂教學的融合嘗試提供參考。在立項的1年多時間里,課題組完成了兩方面工作。
4.1 3D發(fā)音建模
本研究擬以我國各個方言區(qū)的大學英語學習者的語音特征為考察對象,利用電磁發(fā)音儀EMA(AG500)和核磁共振MRI的三維舌位空間數據,探討各個地區(qū)英語學習者的發(fā)音問題,構建我國首批面向英語學習者的三維發(fā)音生理模型,為二語學習者的發(fā)音問題提供可視化信息反饋(visual feedback),打破目前語音評測體系中只提供評分,而沒有反饋的局限性,進而發(fā)展語音評測的有效性和可視化,也為開發(fā)面向教育應用的可視化語音訓練系統(tǒng)和平臺提供有價值的參考。
目前完成了部分MRI數據和EMA數據的收集。使用電磁發(fā)音儀,在發(fā)音器官表面粘貼了傳感器(用于記錄發(fā)音過程中局部發(fā)音器官的位置信息),采集了同步的語音信號和傳感器的位置信息,用核磁共振設備采集了同一發(fā)音人的發(fā)音器官(舌、下顎、上顎等)的MRI形態(tài)數據。
在此基礎上,建立了一個虛擬現實系統(tǒng),該系統(tǒng)能實時將輸入的語音信號轉換成高真實度的三維舌頭運動序列。利用深度神經網絡建立從語音信號到傳感器位置的映射關系;用MRI形態(tài)數據,用有限元方法建立了一個舌的生理模型;將這兩個模型依次串聯起來,得到了發(fā)音過程中舌頭實時運動的虛擬現實系統(tǒng)。實驗表明,該系統(tǒng)能夠依據輸入的語音信號生成高真實度的發(fā)音器官的運動序列。
4.2 “語音教學與測試平臺”建設
按照國家社科基金重大項目的研究計劃和進度安排,第四子課題組于2016年初開始啟動“語音教學與測試平臺”建設的調研和研發(fā)工作。
經過細致論證,該平臺將主要著眼于學習者語言聽說能力的訓練和培養(yǎng),以富文本形式向學習者全方位呈現字、詞、句、語篇等語音材料的標注數據內容,并具備語音播放、錄制和聲學參數動態(tài)呈現等基礎功能,還將支持跟讀、混播、對比、評測等輔助學習功能。
目前該平臺已完成了前期的技術調研、方案設計和程序開發(fā)等基礎工作,并初步實現了xReader系統(tǒng),可用于語音訓練和跟讀學習(操作界面如下圖)。
xReader可呈現的數據內容:文本方面,以篇章材料為例,xReader目前可以呈現語句、短語、詞語、音標等不同層級的標注內容及其翻譯信息,還可通過字號大小、字符顏色變化等手段來凸顯相應的文字內容,如語句重音、詞重音等;聲學參數方面,xReader目前可以動態(tài)分析并呈現寬帶語圖、窄帶語圖、音高圖和波形圖等數據內容。
為便于用戶的學習和跟讀,xReader提供了豐富的語音播放方式:
針對列表內容主要有兩種播放方式:(1)順序播放,對列表中選定的內容從上往下依次播放,用戶可自由設定中間的停頓時間;(2)隨機播放,對列表中選定的內容按照隨機順序進行播放,用戶可自由設定中間的停頓時間。
針對語句內容,不僅可以播放全句內容,也可以根據需要選定其中的某個短語或詞語進行播放,還可以在波形圖或語圖上自由選定某個聲音片段進行播放。
針對用戶錄音內容主要有三種播放方式:(1)混合播放,混合播放語句的原始聲音和用戶聲音,以便于用戶對比;(2)僅播放原始聲音;(3)僅播放用戶聲音。另外,該程序還支持將原始聲音和用戶聲音拼接起來同屏顯示與播放。
xReader可支持錄音與采集:該工具支持學習者按句錄音,并可自動保存用戶語音數據,從而實現學習者語音數據的動態(tài)集采功能。
2、調查研究及學術交流情況
為了對獲取的語料進行標注以便開展深入的分析,社科院專家和學者到各個子課題組交流訪問,介紹語料標注和分析技術,并多次組織人員參加社科院主辦的學術交流和專題研修活動,啟動聯合指導模式,定期派出學生到社科院訪學,參與課題研究。課題組成員先后參與相關國內學術會議、專題研討和研修活動共32次,成功申報科研項目共7項,教研課題共1項,指導學生成功申報相關課題共3項(均已結題)。
課題組成員在期刊、國際和國內重要會議上、論壇和沙龍發(fā)表研究成果32篇,其中英文12篇,EI檢索8篇,CSSCI檢索2篇,指導與本課題相關碩士畢業(yè)論文共12篇,共1篇獲得優(yōu)秀論文獎。
3、學術會議與學術交流活動
課題組參加學術交流列表:
2016年6月,胡方,Speech Prosody 2016。
2016年7月,聞欣怡、賈媛,第十二屆全國語音學學術會議。
2016年7月,王宇、賈媛、李愛軍、徐亮,國際中國語言學學會第24屆年會。
2016年7月,唐穎、潘淑芳,第十二屆全國語音學學術會議。
2016年7月,唐穎、董倩,第十二屆全國語音學學術會議。
2016年7月,唐穎、張麗娜,第十二屆全國語音學學術會議。
2016年7月,周曉鳳、李丹丹,第十二屆全國語音學學術會議。
2016年7月,周曉鳳、楊迪,第十二屆全國語音學學術會議。
2016年7月,周曉鳳、劉珊珊,第十二屆全國語音學學術會議。
2016年9月,翟紅華、王妃妃、李愛軍、趙瑾,第五屆中國英語語音教學研究國際研討會。
2016年9月,Qian Chen、Zhenhua Ling, Chenyu Yang, Lirong Dai,Interspeech 2016。
2016年9月,Xinyi Wen、Jia Yuan,Interspeech 2016。
2016年9月,Hongwei Ding、X. Xu,Interspeech 2016。
2016年9月,Fang Hu, Chunyu Ge,Interspeech 2016。
2016年9月,Liping Xia, Fang Hu,Interspeech 2016。
2016年9月,Hu, W., Hu, F., Jin, J.,Interspeech 2016。
2016年9月,周曉鳳、張景哲,語言文化的影響與變遷國際學術研討會。
2016年9月,唐穎、魏召召,語言文化的影響與變遷國際學術研討會。
2016年9月,周曉鳳、范曉丹,海峽兩岸外語教學研討會。
2016年9月,唐穎、魏召召,第五屆中國英語語音教學研究國際研討會。
2016年9月,李愛軍、林茂燦,第三屆韻律語法研究國際研討會。
2016年12月,李愛軍、林茂燦,應邀到天津大學外國語言與文學學院做特邀報告:漫談語音的相似性英漢語調的“同”和“異”》。
2016年10月,王宇、賈媛、李愛軍、徐亮,Oriental-COCOSDA 2016。
2016年10月,丁紅衛(wèi),First Symposium on Linguistic Diversity in China。
2016年11月,丁紅衛(wèi),“新信息技術下高校教學變革與革新”學術研討會
2016年12月,翟紅華、趙瑾、李愛軍、賈媛,山東國外語言學研究會年會。
2017年3月,Qiang Fang, Ran Luo, Jianguo Wei, Wenhuan Lu, Weiwei Xu, Yin Yang,IEEE VR 2017。
2017年10月,Yuan Jia, Wang Yu, Aijun Li, Liang Xu, Dawei Song,第14屆全國人機語音通訊會議。
2017年10月,賈媛、王宇、李愛軍、徐亮,第14屆全國人機語音通訊會議。
組織學術會議列表:
2016年10月,UPenn-SJTU Symposium on Speech Science and Computational Linguistics
2017年6月,上海交通大學外國語學院2017年音系學與實驗音系學高級研討會
2017年7月,上海交通大學外國語學院2017年語音學與大腦神經機制研討會
2017年10月,國際言語產出會議,將組織專題研討:Production and Perception of Tone in Language Acquisition
4、成果宣傳推介情況
項目組積極在項目成語之間和國際上共享與推介數據庫和研究成果。其一,社科院專家與各個方言課題組和各個子課題組進行密切溝通,進行錄音和標注數據的培訓,保證收集數據的質量、數據標注的規(guī)范性和可靠性。其二,各個方言課題組共享公用基礎資源,并交流研究成果。其三,積極在國際上推廣研究成果、共享資源。課題組積極組織國際研討會,并在在國際會議上發(fā)表論文,并且參加每年O-COCOSDA組織的亞洲英語學習者數據庫和語音研究研討(AESOP-SIG),并將在亞洲范圍共享基礎資源部分數據。
二、 研究成果情況
1、山東方言兩區(qū)四片的英語學習者前元音習得研究
翟紅華、王妃妃、李愛軍、趙瑾(2016)山東方言區(qū)英語學習者英語元音音段習得的實驗語音研究——以前元音/i/、/?/、/?/、/?/為例,第五屆中國英語語音教學研究國際研討會。
我們對山東方言兩區(qū)四片的英語學習者四個前元音/i/、/?/、/?/、/?/習得進行了實驗語音研究。具體實驗語料由兩部分組成,山東學生和美國本族語者的朗讀語料。語料全部來源我們所建的山東方言區(qū)英語學習者語音庫。包括英語和漢語語料。本研究從山東學生的朗讀語料和美國本族語者的朗讀語料中,隨機抽取了64位山東學生(每個城市兩男兩女,年齡20-24歲)和4位美國學生(兩男兩女,年齡20歲左右)的語料作為研究對象。山東發(fā)音人分別是來自山東某高校非英語專業(yè)的本科生和研究生。在入學之前他們一直生活在方言區(qū),方言是他們日常交流語言。他們的英語學習特別是發(fā)音在一定程度上受到方言的影響。抽取的東濰區(qū)學生的語料包含兩部分:英語語料和方言語料。英語語料選取以濁輔音/b/、/d/、/g/為首輔音,目標元音/i/、/?/、/?/、/?/居中,爆破音結尾的單詞,見下表。
為了研究山東東濰區(qū)學生英語發(fā)音受方言影響的程度,本研究還選取了這些發(fā)音人的方言語料。方言語料是以/b/、/d/、/g/為聲母,以韻母/i/和/?/結尾的單字構成,見下表。
通過對比山東和美國兩地學生的元音共振峰F1和F2,發(fā)現山東學生習得元音/i/和/?/要優(yōu)于元音/?/和/?/,而且山東學生試圖用方言/i/和/?/來代替英語元音/?/和/?/的發(fā)音。這主要是受到方言的影響:山東方言對元音/i/的習得產生了正遷移影響,而對元音/?/和/?/的習得產生了負遷移影響。實驗數據真實有效,具有客觀性,一改以往主觀定性的研究,對英語語音教學具有參考價值,同時對學生自身的語音學習有很大的幫助,對于北方官話區(qū)英語學習者語音的學習也有一定的借鑒作用。
2、寧波方言區(qū)英語學習者的單元音聲學特征分析
王宇、徐亮、賈媛、李愛軍(2017)基于英漢語對比的單元音聲學特征分析,《寧波大學學報》,01期。
該研究以言語學習模型為支撐,利用聲學語音實驗的方法,在音段層面考查了10位來自寧波方言區(qū)英語學習者11個英語單元音(如下左圖),并對照寧波方言和漢語普通話相似的3個頂點元音/i,u,a/語音產出的共振峰特征(如下右圖),推論方言和普通話對英語發(fā)音可能存在的影響。研究發(fā)現:方言區(qū)發(fā)音人與英語本族語者之間的英語單元音產出存在系統(tǒng)性差異;寧波方言及普通話語音體系對方言區(qū)學習者的英語語音產出具有明顯的負向遷移。
研究的發(fā)現為ESL語音教學的支撐理念(如言語學習模型)提供了數理上的依據,統(tǒng)計結果除了顯示出發(fā)音人與英語母語者元音產出差異和趨勢,還對語音遷移中相似音位間的影響力做出了推斷,有助于語音教師在語音偏誤預判得基礎上把握教學重點,制定有效的應對策略,克服母語的遷移效應。
3、影響外語口音感知和可懂度的聲學及發(fā)音信息探究
智娜(2017)《影響外語口音感知和可懂度的聲學及發(fā)音信息探究》,中國社會科學院語言研究所博士后報告。
本研究以我國北京方言區(qū)的大學英語學習者為考察對象,通過三項實驗:(1)聲學實驗;(2)英語本族語者對學習者發(fā)音的感知實驗;(3)借助電磁發(fā)音儀(EMA)的元音生理發(fā)音實驗,來探討影響學習者外語口音和發(fā)音可懂度的相關聲學、感知及發(fā)音特征,以及這三個維度之間的對應關系。本研究分別對比了學習者和英國人、學習者和美國人在元音聲學層面上的共振峰特征和時長特征,以及在發(fā)音生理層面上的舌尖、舌體、舌根、下唇、下齒齦的運動特征情況。我們將聲學和生理的7個參數同英語本族語者的感知結果相對應,發(fā)現聲學層面上的共振峰特征可以顯著影響英語本族語者對元音可懂度和口音的感知,而時長特征對可懂度和口音的影響不顯著;在生理層面上,舌體和舌根的運動變化對元音可懂度和口音的感知影響最為顯著,其他發(fā)音器官的影響不顯著。本研究在聲學、發(fā)音、和感知三個維度上的研究數據可以為外語學習者的元音發(fā)音提供有效的糾正型反饋意見。學習者要降低外語口音對元音發(fā)音的可懂度影響,要練習和區(qū)別各個元音,尤其是對立元音在發(fā)音動作上的區(qū)別,而非時長特征上的差異;另外,教學中有必要引進可視化的發(fā)音工具和模型,對可懂度較低的元音有針對性地開展舌體和舌根的發(fā)音運動模仿和練習,提高外語的發(fā)音質量。
4、自動韻律邊界預測研究
Chen, Q., Ling, Z., Yang, C., Dai, L. (2015). Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions. Interspeech.
論文提出了基于隱馬爾科夫模型(Hidden Markov Model,HMM)聲學建模與狀態(tài)解碼的自動韻律標注方法。采用該方法用于韻律自動標注的優(yōu)勢包括:在基于聲學特征分布進行韻律標注時可以充分考慮其他已知標注信息對于分布參數的影響;通過整句解碼的方式確定韻律標注結果,考慮了句中不同位置處韻律標注間的相關性;使用與語音識別類似的算法框架,可以借鑒語音識別中較為成熟的模型訓練與解碼算法。在具體實現中:首先提出基于窮舉搜索的韻律短語邊界自動標注方法,分析了合成系統(tǒng)中不同特征與上下文信息對韻律標注性能的影響,驗證該方法的可行性;在此基礎上又提出了基于維特比搜索的韻律短語自動標注方法,在保證標注結果準確性的前提下,提高了標注的效率;進一步提出了結合n-gram先驗分布的韻律短語自動標注方法,通過利用文本層面的先驗知識,進一步提高了韻律標注的準確性,在Boston University Radio News Corpus和Blizzard Challenge 2007英文語料庫上分布取得了79.6%和81%的標注F-score。
5、發(fā)音可視化建模研究
Fang, Q., Luo, R., Wei, J., et al. (2017). Acoustic VR in the mouth: A real-time speech-driven visual tongue system. IEEE VR.
“一帶一路”國家重大發(fā)展戰(zhàn)略除了要求國內的資金、技術走出去,同時也需要大量聽、說、讀、寫能力全面的語言人才為“走出去”戰(zhàn)略服務。發(fā)音的準確與否是語言能力評價的重要指標之一。然而,發(fā)音往往是語言學習的薄弱環(huán)節(jié)。有些學習者的母語中沒有目標語言的某些語音單元,造成學習者僅僅從聽覺上無法意識到語音單元的差異,給學習這些語言的發(fā)音造成很大困難。可視語音技術能生成與語音信號同步的發(fā)音器官運動視頻信息,并以視頻的方式反饋學習者發(fā)音時發(fā)音器官的位置信息,能夠幫助學習者克服發(fā)音學習中的上述困難,提高語言學習的效率。
在發(fā)音學習過程中,發(fā)音器官的運動信息對于提高學習的效率有積極意義。然而,除了唇的運動能直接觀測外,其它的發(fā)音器官通常都位于聲道內部,很難直接觀察。因此,實時捕捉發(fā)音過程中舌頭的快速三維運動是一件十分困難的事情。本研究采用如下方法建立了一個新的虛擬現實系統(tǒng)。該系統(tǒng)能實時將輸入的語音信號轉換成高真實度的三維舌頭的運動序列。首先,我們使用EMA在發(fā)音器官表面粘貼了傳感器(用于記錄發(fā)音過程中局部發(fā)音器官的位置信息),并采集了同步的語音信號和傳感器的位置信息,并基于此信息利用深度神經網絡建立從語音信號到傳感器位置的映射關系。其次,我們用MRI采集了同一發(fā)音人的發(fā)音器官(舌、下顎、上顎等)的形態(tài)數據。基于上述發(fā)音器官的形態(tài)數據,我們用有限元建立了一個舌的生理模型。該模型充分考慮了舌頭的非線性形變,舌頭形變過程中的體積不變性,以及舌頭在運動過程中與周圍器官(下顎、上顎等)的碰撞。為了提高模型的實時性,我們采用了空間減縮的方法用在低維度空間中計算舌頭的形變。最后,我們將前兩部建立的模型依次串聯起來,得到了本文描述的發(fā)音過程中舌頭實時運動的虛擬現實系統(tǒng)(如下圖)。實驗表明,該系統(tǒng)能夠依據輸入的語音信號生成高真實度的發(fā)音器官的運動序列。
6、英語語調與漢語語調的對比研究
林茂燦、李愛軍(2016)英漢語調的相似性與對外漢語語調教學,《中國語音學報》第7輯。
本文為研究英語語調與漢語語調之間在聲學或語音表現上的相似性,從“相似不等于相同,相似是客觀事物存在的‘同’和‘異’矛盾的統(tǒng)一”(張光鑒,1992)的相似性定義出發(fā),觀察和研究英語語調和漢語調調之間哪些是“同”,哪些是“異”。漢語是聲調語言,英語是非聲調語言。我們看到英語與漢語之間的重讀凸顯及疑問和陳述邊界調,都存在語音表現和語音特征的“同”和“異”,因而,英漢語調有相似性。
“心智和思維產生于人跟外界的相互作用,在這個相互過程中,人通過自己的身體獲得經驗,這個經驗用“體驗”稱之為最合適。“心寓于身”還有一層意思是概念和概念系統(tǒng)的形成要受人類身體構造的制約。例如人對各種顏色的分辨很大程度上是由人體視網膜的生理構造決定的。”(沈家煊,2005)我們認為,英漢語調的相似性有其認知和生理上的理據。
這篇論文應邀作為大會報告在第三節(jié)漢語韻律語法國際研討會上報告。
課題組供稿