舊版網(wǎng)站入口

站內(nèi)搜索

“漢語方言自然口語有聲基礎(chǔ)語料庫建設(shè)”中期檢查情況

2015年07月22日16:22來源:全國哲學(xué)社會科學(xué)工作辦公室

一、研究進(jìn)展情況

一、研究計劃總體執(zhí)行情況

本項目2012年10月立項。2013年1月13日舉行開題論證會,至今(2014年6月)已有一年五個月。一年多來,項目按照原定計劃推進(jìn),總體進(jìn)展順利。

本項目的總目標(biāo)是建設(shè)一個可與GIS銜接的、方言布點(diǎn)較均衡、語料類型較全、標(biāo)注較精的基礎(chǔ)方言口語語料庫,同時借助語料庫建設(shè)推動方言研究的數(shù)字化。課題有兩項建設(shè)目標(biāo):(1)建語料庫;(2)通過建庫推動方言研究的數(shù)字化。依據(jù)研究計劃,課題分前期(2013)、中期(2014-2016)、后期(2017)三個階段。前期主要任務(wù)是基礎(chǔ)理論研究和建庫設(shè)計;中期主要是語料采集和標(biāo)注;后期主要是語料庫運(yùn)行和完善。目前已完成前期基礎(chǔ)理論研究,剛進(jìn)入中期語料采集。具體情況如下。

1.1 前期基礎(chǔ)理論研究(2013.02-2014.05)

調(diào)動組織全組力量,完成了三項基礎(chǔ)工作:(1)梳理相關(guān)文獻(xiàn),厘清建庫的基本理念,重新審視并確認(rèn)申報時論證的語料庫定位;(2)依據(jù)語料庫定位設(shè)計語料庫整體架構(gòu)、確定數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu);(3)研究口語語篇類型,擬定語料采錄大綱。

1.1.1 確認(rèn)語料庫定位

項目組對語料庫文獻(xiàn)及本項目所涉方言的各種文獻(xiàn)進(jìn)行了仔細(xì)梳理,結(jié)合研究目標(biāo)厘清了建庫的三個基本理念:專庫多用、開放互動、方言研究數(shù)字化;同時確認(rèn)本項目應(yīng)建一個基礎(chǔ)性的、系統(tǒng)語篇型語料庫,即給本庫兩個定位:(1)基礎(chǔ)性;(2)系統(tǒng)語篇型。

1.1.2 完成語料庫設(shè)計及各類數(shù)據(jù)設(shè)計

根據(jù)“基礎(chǔ)性”和“系統(tǒng)語篇型”的定位設(shè)計了語料庫結(jié)構(gòu)及各類數(shù)據(jù)結(jié)構(gòu)。我們用三項設(shè)計實現(xiàn)“基礎(chǔ)性”定位:

第一,語料類型的基礎(chǔ)性。以口語語篇為主,輔以字、詞、句等基礎(chǔ)語料。從建庫目標(biāo)看,基礎(chǔ)語料是實現(xiàn)語篇自動或半自動標(biāo)注的支柱;從語料庫結(jié)構(gòu)看,基礎(chǔ)語料與語篇語料互為依托,才能滿足方言研究及應(yīng)用研究的各種需求。

第二,方言布點(diǎn)的基礎(chǔ)性。方言口語語篇兼具方言的語言系統(tǒng)及其所承載的地域文化的雙重基礎(chǔ)性。為呈現(xiàn)這種雙重基礎(chǔ)性,方言布點(diǎn)兼顧方言與文化。因方言分區(qū)與地域文化大體對應(yīng),故依照漢語方言的一二級分區(qū)、選擇地域文化中心的具有典型代表的縣市設(shè)方言點(diǎn)。這些方言點(diǎn)覆蓋全國九個大方言區(qū)和官話的八個二級分區(qū),是當(dāng)?shù)亟?jīng)濟(jì)文化中心(或為古城),具有地域文化代表性。

第三,語料形式與內(nèi)容統(tǒng)一的基礎(chǔ)性。語料形式指其語言樣態(tài),語料內(nèi)容指其所映射的客觀世界。選用適量的方言文化語料,體現(xiàn)方言所承載的經(jīng)典地域文化。

用兩項設(shè)計實現(xiàn)“系統(tǒng)語篇型”定位!跋到y(tǒng)語篇型”有兩個含義,一是語料類型以語篇為主;二是語料是系統(tǒng)的(Systematic),即預(yù)先確定收集語料的原則和比例,語料具有平衡性和系統(tǒng)性。

第一,設(shè)兩個大庫:語篇庫和基礎(chǔ)庫,語篇庫是主庫,基礎(chǔ)庫是副庫,體現(xiàn)語篇的主角地位。兩個大庫分別設(shè)三個子庫:語篇庫有文本語篇庫、即席語篇庫和自錄語篇庫,基礎(chǔ)庫含字庫、詞庫和句庫。

第二,語篇類型分三級,三級類型所含種類數(shù)成寶塔狀:頂部的一級種類數(shù)目少,概括度高,便于操作;中底部的二、三級類型數(shù)目遞增,盡量涵蓋方言口語中出現(xiàn)的各種細(xì)類,體現(xiàn)語篇語料的系統(tǒng)性。設(shè)定每一小類的采錄內(nèi)容及大體相當(dāng)?shù)臅r長,實現(xiàn)語料平衡。

設(shè)計基礎(chǔ)數(shù)據(jù)。語篇庫以語篇為一級單位、以句為二級單位設(shè)計數(shù)據(jù),每條數(shù)據(jù)24個字段;A(chǔ)庫因語言單位不同,分別設(shè)計數(shù)據(jù)字段。字庫以音節(jié)為一級單位、以音位為二級單位設(shè)計,每條數(shù)據(jù)41字段。詞庫以詞語為一級單位、以音節(jié)結(jié)構(gòu)元素為二級單位設(shè)計,每條數(shù)據(jù)42字段。句庫以句為單位設(shè)計,每條數(shù)據(jù)22字段。各類數(shù)據(jù)的字段數(shù)目雖不同,但都含三部分,一是語言信息字段,二是制作信息字段,三是與GIS銜接的字段。

1.1.3 完成語料庫采錄底本制作

語料采錄底本是語料庫建設(shè)的根本,前述各項設(shè)計能否兌現(xiàn)取決于語料采錄底本的結(jié)構(gòu)與質(zhì)量。語料采錄底本還是中后期工作的綱領(lǐng)。因此,擬制語料采錄底本是前期基礎(chǔ)研究的歸宿與重心,項目組傾注了大量人力、物力與精力。語料采錄底本分字表、詞表、句表和語篇底本四類。前三類我們有前期積累,而語篇底本我們既無前期研究成果,又缺乏可資參考的資料,是重中之重。四類采錄底本的研制經(jīng)歷了三步。第一步參閱文獻(xiàn)擬草稿(2013年2月-2013年11

月)。第二步征求意見后修改加工形成初稿(2013年12月)。2013年12月中旬在

廣州召開第17屆全國漢語方言學(xué)會年會,四類采錄底本以論文形式在會上交流,廣泛征求專家意見。第三步經(jīng)實地采錄試驗后再次修訂、定稿(2014年2月-4月)。2014年1月在南京用采錄底本初稿試驗錄制,然后逐字、逐詞、逐句、逐篇整理、修訂,再定稿。四類采錄底本的擬制情況見下節(jié)“調(diào)查研究”。

1.2 中期語料研究(2014年1月-至今)

2014年上半年是前期基礎(chǔ)研究與中期語料研究的銜接過渡期。已按計劃完成南京方言的試驗采錄,并根據(jù)試驗結(jié)果修訂完善了語料采錄大綱。其他方言點(diǎn)的同步采錄工作大多安排就緒,計劃暑假開工。

南京方言的采錄試驗集中在2014年1月,依照采錄底本初稿完成了主體工作,含4052單字、542雙字組、5646詞語、100語法例句,以及文本語篇、即席語篇的錄音和錄像。2月至6月進(jìn)行了兩項后續(xù)工作。一是依據(jù)試驗結(jié)果修訂采錄底本的缺陷,補(bǔ)充、刪節(jié)、修改有關(guān)內(nèi)容,完善采錄底本。其中字表和詞表有較大改動,語篇底本有個別調(diào)整。二是檢查所錄語料是否合格。重點(diǎn)檢查方言是否準(zhǔn)確、地道,音檔有無撲麥、過載或信噪比不足,音檔數(shù)量與采錄底本是否吻合。請當(dāng)?shù)胤窖匀藢徛牱窖允欠窈细,由項目組成員審查技術(shù)問題。將審核出的問題集中,擬制成補(bǔ)錄提綱,于2014年4月完成補(bǔ)錄。然后整理補(bǔ)錄的音檔,替換原不合格音檔。根據(jù)新定采錄底本重新整理已錄語料,根據(jù)數(shù)據(jù)模型切割音檔,根據(jù)語料庫構(gòu)架歸置音檔于指定位置,使所有音檔的編碼、存放位置等與新采錄大綱一致。

二、各子課題進(jìn)展情況

本項目有五個子課題。子課題一是軟件組,研制建庫系列軟件;子課題二、三、四是方言組,分別研究東西南北中的方言語料;子課題五研究方言韻律。軟件組和韻律組的研究依托于方言組。方言組的研究主要在前期和中期,軟件組和韻律組的研究主要在中期和后期。五個子課題都按照原計劃實施研究。

2.1 子課題一:語料庫建設(shè)系列軟件的研制

負(fù)責(zé)人南京師范大學(xué)計算機(jī)學(xué)院曲維光教授。該子課題的任務(wù)是研究和開發(fā)相關(guān)軟件,使語料的采集加工軟件化或半軟件化。采用兩條途徑實現(xiàn)這一目標(biāo):一是自主研制相應(yīng)軟件,二是借用已有軟件,分別由兩個小組承擔(dān)。關(guān)于借用軟件,已選了兩款,其中一款已完成與項目的對接,另一款尚在考察中。關(guān)于自研軟件,正在依據(jù)已錄語料細(xì)化其設(shè)計,并選用供研制軟件用的語料。

借用軟件之一是Elan ( EUDICO Linguistic Annotator),由荷蘭紐梅茵馬克斯布朗克心理語言學(xué)研究所開發(fā),是一個跨平臺(可在Windows ,Macos ,Linux等主流操作系統(tǒng)上使用)的多媒體轉(zhuǎn)寫標(biāo)注軟件。廣泛應(yīng)用于口語語料庫建設(shè)、話語分析、態(tài)勢語研究等方面。2001年頒布,比較成熟,已有漢文版。本項目所以選擇Elan是因為:第一,它可同步實現(xiàn)語篇的三種標(biāo)注——漢字、國際音標(biāo)、普通話譯文;第二,可分別進(jìn)行音頻、視頻文件的標(biāo)注。這兩種性能與本項目語料文件儲存類型及語篇標(biāo)注要求相吻合。按照項目組要求,王洪鐘教授和侯超實驗師研究了Elan性能和操作程序,并用已采錄語料實際演練,確定語篇標(biāo)注工序。由侯超起草、項目負(fù)責(zé)人審定修改,形成本項目語篇標(biāo)注規(guī)范,收入《漢語方言口語有聲庫語料采制工作手冊》下篇第三部分“語料整理規(guī)范”第六款第四條“語篇標(biāo)注規(guī)范”。

另一款軟件可同步錄入用普通話翻譯方言語篇的口語語聲。這將在一定程度上緩解語篇標(biāo)注的壓力。但這款軟件不夠穩(wěn)定?煞窀脑鞛榻◣焖茫性诳疾熘。

該組成員同時進(jìn)行語言處理及計算語言學(xué)的相關(guān)研究,發(fā)表論文3篇。

2.2 子課題二:西部北部方言口語語料研究

負(fù)責(zé)人蘭州城市學(xué)院莫超教授。該組負(fù)責(zé)北方官話二級分區(qū)及晉語的9個方言點(diǎn)的語料研究。在2013年的前期基礎(chǔ)研究中,協(xié)同總項目組完成了語法采錄大綱的研制。專題研制了“蘭銀官話語法基礎(chǔ)語料調(diào)查提要”,為中期蘭銀官話語法語料的采錄提供了依據(jù)。

2014年2-5月,該子課題有8個方言點(diǎn)完成了以下三項基礎(chǔ)工作:

(1)梳理方言音系已有研究成果,匯總主要分歧,為歸納音系做準(zhǔn)備。

(2)擬制本方言特有文化語料采錄底本。這是語篇采錄大綱的內(nèi)容之一,約占一個方言點(diǎn)語篇總時長的20%。

(3)擬出本方言特征詞表。這是采錄詞表的內(nèi)容之一,占一個方言點(diǎn)采錄總詞條數(shù)的3.6%。

本項目語料采錄大綱分所有方言共有和各方言特有兩部分,以共有語料為主,特有語料為輔。共有語料由總項目組設(shè)計。特有語料分特有文化語料和特征詞兩類。特有文化語料由各方言點(diǎn)根據(jù)語篇模型擬出初稿,由總項目組審核定稿。特征詞由總項目組提供初稿,方言點(diǎn)核實、補(bǔ)充、修訂,再由總項目組審核、定稿。兩類語料的設(shè)計模型均經(jīng)過2014年1月的語料采錄試點(diǎn)的檢驗。2月,各方言點(diǎn)開始工作,5月全部完成。

特有文化語料歸屬語篇,項目組依據(jù)語篇模型規(guī)定其種類及數(shù)量,以保持各方言點(diǎn)語料的平衡。擬出特有文化語料底本的統(tǒng)一書寫模板,以保證語料采集大綱的整齊與一致。關(guān)于特征詞,項目組提供了精粗不一的初稿,各方言依據(jù)多種文獻(xiàn)和責(zé)任人此前的研究積累進(jìn)行復(fù)核修訂。各方言修訂的幅度不同,有的未修訂,仍采用原稿;有的刪節(jié)大部分詞條,另做補(bǔ)充;有的基本保留原詞條,補(bǔ)充了詞義、例證等。提交的特征詞表各方言數(shù)目不等,需要項目組最終審核統(tǒng)一。關(guān)于音系綜述,有的方言點(diǎn)已有研究不多,尚無分歧,略去不做。

以上三項工作及完成情況的概括包含三個方言組,下文匯報另兩個方言組情況時不再重復(fù)。

本組有8個方言點(diǎn)擬定了特有文化語料采錄大綱:北京官話(馮青青博士)、膠遼官話(王淑霞教授)、冀魯官話(張燕芬副教授)、甘肅蘭銀官話和寧夏蘭銀官話(莫超教授)、東北官話(梁曉玲副教授)、新疆蘭銀官話(張洋教授)、晉語(史秀菊教授),共11.18萬字,平均每方言1.4萬字。有7個方言擬制了特征詞表(新疆點(diǎn)除外),共1634條,平均每方言233條;有5個方言做了音系綜述(膠遼官話、晉語、新疆蘭銀官話除外),總字?jǐn)?shù)1.73萬字,平均每方言0.346萬字。

該組成員同時進(jìn)行本方言的相關(guān)研究,發(fā)表論文12篇。

2.3 子課題三:中部東部方言口語語料研究

負(fù)責(zé)人浙江師范大學(xué)王洪鐘教授。該組負(fù)責(zé)吳語、徽語、湘語、江淮官話共5個方言點(diǎn)的語料研究。2013年的基礎(chǔ)研究階段,協(xié)同總項目組研究語篇采錄大綱,以及語篇標(biāo)注軟件的引介工作。

2013年1-5月,王洪鐘首次研究了方言口語的語篇類型,擬出語篇采錄初稿,為本項目語篇采錄底本的后續(xù)研究奠定了良好基礎(chǔ)。同時,嘗試用Elan標(biāo)注方言語篇,使本項目建庫軟件的開發(fā)借用進(jìn)入了操作層面。

2014年1-4月,江淮官話南京方言點(diǎn)作為項目試點(diǎn)完成語料采錄。

2014年2-5月,本組的其他4個方言點(diǎn)完成了特有文化語料底本、特征詞表、音系文獻(xiàn)綜述等研究:南部吳語(王洪鐘教授)、北部吳語(顧勁松副教授)、徽語(栗華益副教授)、湘語(李康澄博士)。4個方言的特有文化語料底本總字?jǐn)?shù)8.74萬,平均每方言點(diǎn)2.185萬字。4方言音系綜述共1.454萬字,平均每方言點(diǎn)0.36萬字。修訂特征詞表的有3個方言,共497詞條,平均每方言點(diǎn)166詞,徽語仍沿用項目組提供的詞表。

該組成員同時進(jìn)行本方言的相關(guān)研究,出版著作一部,發(fā)表論文17篇。

2.4 子課題四:南部方言口語語料研究

負(fù)責(zé)人暨南大學(xué)陳曉錦教授,負(fù)責(zé)粵語、閩語、客家話、贛語4個方言點(diǎn)的語料研究。

2014年2-5月,粵語(陳曉錦教授)和客家話(侯小英博士)完成了擬訂文化語料底本、修訂特征表及音系綜述三項工作;浾Z文化語料底本2.23萬字,特征詞162個,音系綜述0.83萬字?图曳窖晕幕Z料底本1.45萬字,特征詞208條,音系綜述0.35萬字。平均每方言點(diǎn)文化語料1.84萬字,特征詞185詞,音系綜述0.59萬字。

該組成員同時進(jìn)行本方言的相關(guān)研究,發(fā)表論文9篇。

2.5子課題五:方言口語韻律研究

負(fù)責(zé)人南京師范大學(xué)顧文濤教授。根據(jù)開題評審專家“收縮任務(wù)”“研究韻律詞變調(diào)”的意見,本組研究任務(wù)調(diào)整為兩項:一是建設(shè)典型方言專用韻律數(shù)據(jù)庫;二是用實驗方法研究各方言點(diǎn)韻律詞(雙音節(jié))變調(diào),為研究方言語料標(biāo)注軟件提供音變規(guī)律的支撐。因收縮了任務(wù),顧文濤教授2013年另設(shè)計課題“社會情感的語音生成與認(rèn)知的跨語言跨文化研究”,選為國家社科基金重大項目,競標(biāo)后獲批,立項號13&ZD189。

該組的方言專用韻律數(shù)據(jù)庫正在籌建。

韻律詞變調(diào)研究需要語料做實驗。2014年5月,南京完成采錄語料的核對,6月初,選用了其中的542組雙音節(jié)韻律詞開始做實驗。目前正在分割組合音檔,做標(biāo)注。預(yù)計7月底完成。這一研究的另一用意是通過試驗擬出韻律詞變調(diào)的研究規(guī)范。

該組成員同時還進(jìn)行韻律及方言的相關(guān)研究,發(fā)表論文5篇。

三、調(diào)查研究

主要有文獻(xiàn)調(diào)查和實地語料采錄。

實地語料采錄是本項目中期的主要任務(wù)。2104年是中期研究第一年,上半年完成一個方言的試點(diǎn)采錄,下半年將全面推開。

2013年1月至今,項目組調(diào)查研究的重心是語料采錄大綱,分字表、詞表、句表和語篇底本四種。如前所述,研制語料采錄大綱經(jīng)歷了三步:查閱文獻(xiàn)擬草稿,征求意見定初稿,試驗檢驗后定稿。四類語料底本的具體調(diào)查研究如下。

3.1字表。定稿字表分單字表和雙字組表(用來調(diào)查連讀變調(diào))。定稿單字表4012字,分音系例字(1-337)和同音字匯(338-4012)兩部分,統(tǒng)一編號。第1-96號為聲調(diào)例字,97-234為聲母例字,235-337為韻母例字;338-4012為同音字匯。每字?jǐn)y帶反切上下字、中古韻攝、開合、等、聲、韻、調(diào)及北京聲韻調(diào)。其中3904-4012的109個字沒有古音信息。先后參加字表擬定的有項目組成員吳莉、肖萍、馮青青、王會、魏漢杰、唐志強(qiáng)、劉俐李。

雙字組表用來調(diào)查最基本的雙音節(jié)連讀變調(diào)規(guī)律。按照中古四聲八調(diào)設(shè)計,共542組。這些組合首先確保符合調(diào)類組合規(guī)則,其次考慮常用性和通用性,考慮到有的方言可能不只八個聲調(diào),預(yù)留了可補(bǔ)空間。先后參加雙字組表擬定的有侯超、馮青青、劉俐李。

單字表的源表是項目組前期成果“現(xiàn)代漢語方言有聲數(shù)據(jù)庫”(2005-2012)的采錄字表,經(jīng)歷了四次修訂?傋?jǐn)?shù)由源表的4033字到草稿的4082字、初稿的4052字,定稿為4012字。

第一次修訂(2013年2月至10月)擬出草稿。修訂原則:一字一音一義,不收方言不說的字、發(fā)音人難以確認(rèn)的字、冗余字、極度低頻字和語義不明字。做了四項修訂:驗核補(bǔ)字,刪重,修繕,補(bǔ)充各字的古音信息。我們用三種材料檢驗字表收字,一是42卷本方言詞典共有詞的用字,二是“現(xiàn)代漢語方言有聲數(shù)據(jù)庫”6000詞匯表用字,三是社科院語言所的詞匯調(diào)查表用字,然后刪重補(bǔ)漏,修訂源表用字、用例、注釋、讀音等方面的不當(dāng)及錯漏。總字?jǐn)?shù)由源表的4033增至4082。

第二次修訂(2013年12月)后確定初稿。廣州方言會議征求意見后,主要修正了有誤的古音和北京音信息,查補(bǔ)了80余字原缺的古音信息,增加了音系例字中的韻母例字,刪節(jié)了30個不易采錄到的字,給字表重新排序。總字?jǐn)?shù)由草稿的4082減至4052。該稿用于試點(diǎn)采錄。

第三次修訂(2014年2月)后初步定稿。初稿在南京試錄后根據(jù)試驗結(jié)果再次修訂。主要工作:再次排查重復(fù)字,刪節(jié)書面語字、少用字、不便言說的字,多義字選其口語常用義,給無音韻地位的字重新排序?傋?jǐn)?shù)由初稿的4052減至4012。

第四次(2014年5至6月)核對古音信息,定稿。依據(jù)丁聲樹、李榮《古今字音對照手冊》和社科院語言所《方言調(diào)查字表》,參照《廣韻》、《康熙字典》和郭錫良《漢字古音手冊》逐字核對修正或補(bǔ)充4012字的古音信息及北京音信息,共修正補(bǔ)充了34字的相關(guān)信息。

3.2 詞表。定稿詞表分核心詞、基礎(chǔ)詞和特征詞三個大類。前兩類是各方言共有詞,反映方言的共性,可用于方言間比較。特征詞各方言點(diǎn)不同,反映方言的個性。核心詞采用斯瓦迪士的200核心詞,序號1-200。基礎(chǔ)詞共5260條,序號201-5460;按語義分作29類,按類排序。特征詞每方言點(diǎn)各有專屬詞表,詞目在100-300之間,起始序號5461。

用來制定詞表的源表是項目組前期成果“現(xiàn)代漢語方言有聲數(shù)據(jù)庫”(2008-2012)的采錄詞表,有6020條核心詞和基礎(chǔ)詞,各方言特征詞100-400不等。6020條詞表是多重研究的結(jié)果,以三篇系統(tǒng)研究漢語方言詞匯的碩士學(xué)位論文(南京師范大學(xué),2009)為主。該詞表含42卷本方言詞典的3877條方言共有詞(經(jīng)碩士論文自建數(shù)據(jù)庫統(tǒng)計得出)。源詞表的收詞及數(shù)量基本符合本項目,但還需要打磨。源詞表經(jīng)過三次修訂,總詞數(shù)由6020詞減至5886、5646(用于試點(diǎn)錄音),定稿詞表為5460詞。修訂工作主要有:(1)核定收詞單位,刪節(jié)語素,保留詞、短語詞和成語、慣用語;(2)核定并注釋詞義,給容易岐解的詞、不易準(zhǔn)確理解的多義詞注釋詞義(取基本義),做到一詞一義;(3)核定詞性,做到一詞一種詞性;(4)刪節(jié)同義重復(fù)詞、生僻詞、已亡詞、近亡詞、書面語詞、方言中難有對應(yīng)說法的詞,刪節(jié)借用常用名詞或動詞的量詞,如一房子人,一挑水,刪節(jié)重疊、兒化等變形詞;(5)分類及歸類;(6)編碼;(7)排序。2013年11月前擬草稿,主要工作是(1)-(4);2013年12月擬出初稿,以(4)-(7)為主;2014年1月后的再次修訂,主要查誤補(bǔ)漏,涉及(1)-(7)全部。

參加詞表修訂的有侯超、宋益丹、唐志強(qiáng)、滕菲、王會、魏漢杰、唐志強(qiáng)、劉俐李。

3.3 句表。有100語法例句。語法例句不是本項目語料重點(diǎn),因為本庫各種類型的語篇能提供數(shù)量較大、類型較全、自然度較高的語法例句。但自然語篇的語法例句類型及其數(shù)量的平衡不易控制,故仍需做此項設(shè)計。100條語法例句涉及句法結(jié)構(gòu)、句法成分、語序、句型、句類、體貌、復(fù)句和特殊格式,以方便方言之間的比較。句表草稿擬出后修訂了一次,即廣州會議后的修訂,南京試驗時未發(fā)現(xiàn)問題。擬制句表的有侯超、莫超。

3.4 語篇。這是本庫語料建設(shè)的主體,但可資參考的文獻(xiàn)很少。我們認(rèn)為,口語語篇類型及據(jù)此而研制的語篇采錄模型是擬制語篇底本的關(guān)鍵。2013年1月,項目開題后即由王洪鐘擔(dān)綱,從語篇類型入手展開研究。5月13日擬出初

稿。項目負(fù)責(zé)人根據(jù)初稿再研究,8月13日擬出第二稿,然后提交方言組學(xué)者討論。8月27日擬出第三稿。第三稿結(jié)合說話人角色和語料類型進(jìn)行語料平衡處理,設(shè)定各類話題編碼,形成語篇采錄模型。然后用具體語料填充該模型,制成語篇采錄表。語篇采錄表經(jīng)廣州會議征求意見和南京試錄檢驗后,調(diào)整了一些話語方式,最終定稿。馮青青參與了具體語料的研制。

確定語篇類型依循三條原理:(1)注重語篇形式與語篇內(nèi)容的統(tǒng)一及充實;(2)語篇形式應(yīng)涵蓋本項目所涉及的各種因素;(3)語篇內(nèi)容應(yīng)包含人、自然、社會和話語四方面,因為語篇映射客觀世界,客觀世界的基本元素有人、自然和社會;語篇還是話語單位,應(yīng)有話語的內(nèi)涵。語篇設(shè)計遵循四項原則:(1)類型全,篇量足;(2)注重反映方言的語音、詞匯、語法、語篇特點(diǎn),注重反映方言所承載的地域文化特征;(3)便于各方言語料對比;(4)便于發(fā)音人言說和錄音人錄制。

定稿語篇采錄底本分為三大類:文本語篇(按照文本脫稿言說生成)、即席語篇(順著話題即時言說生成)、自錄語篇(根據(jù)語境現(xiàn)場言說生成)。三類語篇的自然度依次遞增,即:文本語篇﹤即席語篇﹤自錄語篇,但錄制與標(biāo)注的難度順序相反。文本語篇分六類,即席語篇有四類,自錄語篇有兩類。

四、學(xué)術(shù)會議

舉辦了重大項目開題論證會。

先期召開了開題預(yù)備會。2012年12月15日項目組在寧全體成員參加,主要討論項目負(fù)責(zé)人的開題總報告,五個子課題的分報告。重點(diǎn)討論了語料庫管理及研發(fā)語料處理軟件問題,GIS(地理信息系統(tǒng))技術(shù)與方言語料對接問題,語篇類型設(shè)計、采錄、標(biāo)注等問題。安排了論證會的學(xué)術(shù)準(zhǔn)備與會務(wù)籌備。

2013年1月13日,開題論證會在南京師范大學(xué)隨園舉行。會議由中國社會科學(xué)院語言所侯精一研究員主持,出席會議的有上海師范大學(xué)潘悟云、復(fù)旦大學(xué)游汝杰、復(fù)旦大學(xué)陳忠敏、南京大學(xué)顧黔等五位教授,江蘇省社科規(guī)劃辦主任徐之順,還有南京師范大學(xué)副校長繆建東、社會科學(xué)處處長秦國榮、文學(xué)院院長駱冬青、副院長黨銀平等教授。項目負(fù)責(zé)人劉俐李教授做開題總報告,子課題負(fù)責(zé)人蘭州城市學(xué)院副院長莫超、浙江師范大學(xué)王洪鐘、南師大計算機(jī)學(xué)院副院長曲維光、南師大文學(xué)院顧文濤四教授作子課題開題報告,骨干成員南師大地科院龍毅教授就本項目與GIS的銜接作說明。各位評審專家就數(shù)據(jù)庫規(guī)范、標(biāo)注工作量、音變規(guī)律研究等問題提出精要見解與建議。侯精一研究員

作總結(jié),認(rèn)為本項目有“很高的熱情,很硬的要求,很大的工作量”,建議“收縮任務(wù)”并提出具體指導(dǎo)意見。這些意見和建議中肯、切實,使項目建設(shè)更具操作性。

組織了重要學(xué)術(shù)會議的專場討論。

“全國漢語方言學(xué)會第十七屆學(xué)術(shù)年會暨漢語方言國際學(xué)術(shù)討論會”2013年12月12-15日在廣州召開,這是國內(nèi)最高層次的方言學(xué)研討會。遵照會議籌委會組織重大項目專場討論的動議,項目組組織了一組論文參會。項目負(fù)責(zé)人作大會主題發(fā)言“第三代語料庫和方言語篇庫設(shè)計——‘漢語方言自然口語有聲基礎(chǔ)語料庫建設(shè)’的設(shè)計”。與之呼應(yīng)的有分會場的學(xué)術(shù)報告“漢語方言長篇采錄語料的設(shè)計與思考”(王洪鐘)、“蘭銀官話自然口語庫中語法基礎(chǔ)語料的設(shè)計與思考”(莫超)、“漢語方言自然口語庫語法調(diào)查設(shè)計”(侯超)、“漢語方言自然口語庫語音采錄語料的思考”(肖萍)、“吳語敘述型語篇韻律研究方案”(宋益丹)。這些發(fā)言引起了會場內(nèi)外的熱烈討論。項目組成員廣泛征求意見,同時利用會議間隙集體討論了研究內(nèi)容、研究策略以及語料采錄大綱的修訂與分工。會后,項目負(fù)責(zé)人被推舉為全國方言學(xué)會學(xué)術(shù)委員。

再次組織重要學(xué)術(shù)會議的專場討論。

第十一屆中國語音學(xué)學(xué)術(shù)會議(PCC2014)將于2014年8月在新疆大學(xué)舉行。中國語言學(xué)會語音學(xué)分會會長鮑懷翹研究員授意項目負(fù)責(zé)人組織實驗方言學(xué)專場。項目組將以一組方言聲調(diào)實驗與數(shù)據(jù)處理策略的論文參會。劉俐李參會論文“方言聲調(diào)大樣本單體實驗的啟示”、侯超“基于語音實驗的調(diào)系規(guī)整方法再議”、宋益丹“漢語方言調(diào)長和調(diào)型的關(guān)系研究”。

五、學(xué)術(shù)交流

學(xué)術(shù)會議

2012年11月至2014年6月,項目組成員出席國際、國內(nèi)重要學(xué)術(shù)會議32人次。主要會議有“全國漢語方言學(xué)會第十七屆學(xué)術(shù)年會暨漢語方言國際學(xué)術(shù)討論會”(2013年12月,廣州),“第七屆官話方言國際學(xué)術(shù)研討會”(2013年11月,合肥),“首屆語言類型學(xué)國際學(xué)術(shù)研討會暨第二屆方言語音與語法論壇”(2013年11月,常熟),“方言學(xué)國際高端論壇暨慶!斗窖浴冯s志創(chuàng)刊35周年學(xué)術(shù)討論會”(2013年9月,濟(jì)南),“阿爾泰語與西北漢語方言接觸學(xué)術(shù)研討會”(2013年8月,西寧),“第七屆國際吳方言學(xué)術(shù)研討會”(2012年11月,

金華),“當(dāng)代語言科學(xué)創(chuàng)新與發(fā)展國際學(xué)術(shù)研討會”(2012年10月,徐州),“第二屆中國地理語言學(xué)國際學(xué)術(shù)研討會”(2012年10月,南京)。

學(xué)術(shù)講座

2012年10月至2014年6月,項目組成員應(yīng)邀外出講座5人次。

2012年10月,莫超教授與張建軍副教授應(yīng)邀在寶雞文理學(xué)院做“西北方言文言文獻(xiàn)中的“語助辭”專題講座。

2013年4月,張洋教授應(yīng)邀在新疆維吾爾自治區(qū)黨校做“新疆語言與文化”學(xué)術(shù)講座。

2013年5月,張洋教授應(yīng)邀在新疆大學(xué)方言研究中心做“新疆漢語方言的語音”專題講座。

2013年9月,顧文濤教授應(yīng)邀在日本東京大學(xué)做“Prosodic analysis and perception of Mandarin attitudinal speech”講座。

2014年3月,顧文濤教授應(yīng)邀在日本東京大學(xué)做“Quantitative analysis of prosodic errors in nonnative speech”講座。

六、成果宣傳推介情況

項目組雖未舉行專門的成果發(fā)布會,但已多次在國際和全國性學(xué)術(shù)會議上推介階段成果,尤其“全國漢語方言學(xué)會第十七屆學(xué)術(shù)年會暨漢語方言國際學(xué)術(shù)討論會”,與會學(xué)者300余人,項目組發(fā)布了一組有關(guān)方言口語語料庫設(shè)計的系列論文,引起關(guān)注,影響較大。項目負(fù)責(zé)人的主題報告“第三代語料庫和方言語篇庫設(shè)計——‘漢語方言自然口語有聲基礎(chǔ)語料庫建設(shè)’的設(shè)計”反響熱烈,當(dāng)場即有學(xué)者表示贊同或贊譽(yù)。項目組成員還在“第七屆官話方言國際學(xué)術(shù)研討會”、“方言學(xué)國際高端論壇暨慶!斗窖浴冯s志創(chuàng)刊35周年學(xué)術(shù)討論會”等重要學(xué)術(shù)會議上推介本項目成果及方言研究數(shù)字化理念。

項目負(fù)責(zé)人在《中國社會科學(xué)院報》(2013年2月18日第A07版)撰文介紹方言研究數(shù)字化成果“漢語方言實驗工作系統(tǒng)”,編者將文章標(biāo)題改為“‘方言實驗工作系統(tǒng)’使方言研究更科學(xué)”,并在文前加有編者按。本項目倡導(dǎo)并實踐的方言研究數(shù)字化已為國家社科規(guī)劃辦采納,列為2014年度國家社會科學(xué)基金項目語言學(xué)課題指南的第12號“方言研究數(shù)字化基礎(chǔ)建設(shè)研究”(項目負(fù)責(zé)人劉俐李2011年上報“國家哲學(xué)社會科學(xué)重大基礎(chǔ)理論研究選題建議”的題目是“方言研究數(shù)字化基礎(chǔ)建設(shè)”)。

二、研究成果情況

一、代表性成果

1.《漢語方言自然口語有聲基礎(chǔ)語庫語料采錄大綱》(8.76萬字)

這是本項目語料采錄大綱,也可供方言口語研究用。由三部分構(gòu)成。

第一部分“錄制語料概覽”,用6張表列出采錄底本的結(jié)構(gòu)、語料種類、數(shù)量,各類語料錄制時長、錄制方式,不同角色發(fā)音人的具體任務(wù)。

第二部分“基礎(chǔ)語料錄制底本”,分語音、詞匯、語法。語音部分有單字4012個,雙音節(jié)韻律詞542個。詞匯分核心詞(200)、基礎(chǔ)詞(5260,29類)、特征詞(100-300)。語法有100例句。

第三部分“語篇語料錄制底本”,分文本語篇、即席語篇、自錄語篇三種。文本語篇有六類,分全部方言通用與各方言特用兩種,提供錄制底本。即席語篇有四類,各類下含三至四種,提供話題及話題引導(dǎo)詞。自錄語篇兩種,提供場景說明及錄制要求。

創(chuàng)新之處主要是第三部分。此前的方言調(diào)查大綱多為字、詞、句,即本大綱的第二部分,未見語篇調(diào)查大綱。在已有研究成果中也有語篇,但數(shù)量少,尤其缺少自然口語語篇(即席語篇與自錄語篇)。本成果提供了成系統(tǒng)的口語語篇采錄底本,就我們目力所及,在漢語方言研究領(lǐng)域應(yīng)是第一次。方言口語語篇采錄底本有助于推動方言口語甚至共同語口語的調(diào)查與研究。此外,詞表分核心詞、基礎(chǔ)詞、特征詞的三分結(jié)構(gòu),基礎(chǔ)詞的多重篩選,字表附古音信息,字表添加韻律詞等,具有一定新意,會更方便漢語方言的調(diào)查與研究。

2.《漢語方言口語有聲庫語料采制工作手冊》(2.36萬字)

這是規(guī)范項目組各項工作的指導(dǎo)文件,分“概述”和“工作規(guī)范”兩部分。

“概述”含研究目標(biāo)、方言選點(diǎn)、語料結(jié)構(gòu)、任務(wù)進(jìn)度、責(zé)任分工五項?墒姑课豁椖拷M成員把握項目整體,定位各自職責(zé)。

“工作規(guī)范”有三項:(1)資料規(guī)范;(2)采錄規(guī)范;(3)整理規(guī)范。

(1)資料規(guī)范:有補(bǔ)充采錄底本(文化語料及特征詞)規(guī)范和確定音系規(guī)范。提出具體要求(類型和數(shù)目)、指明途徑、規(guī)范工作步驟。

(2)采錄規(guī)范:有采錄對象規(guī)范、采錄內(nèi)容規(guī)范、音頻采錄與處理規(guī)范、

視頻采錄與處理規(guī)范、拍照規(guī)范五項。指明采錄對象和采錄內(nèi)容,提出技術(shù)要求并予以指導(dǎo),如硬件型號、軟件版本、技術(shù)指標(biāo)、操作程序及注意事項等。

(3)語料整理規(guī)范:含音頻和視頻剪輯、轉(zhuǎn)寫漢字、標(biāo)注國際音標(biāo)、字詞標(biāo)注和復(fù)核、例句標(biāo)注和復(fù)核、語篇標(biāo)注、數(shù)據(jù)模板和數(shù)據(jù)字典、入庫數(shù)據(jù)語料包等八項操作規(guī)范。同時寫明各類軟件的使用方法、操作步驟與具體要求。

工作手冊是規(guī)范本項目各種研究程序的文件,也是方言語料數(shù)字化研究方法、研究方式與技術(shù)手段的集成。方言研究的數(shù)字化是本世紀(jì)方言研究的趨勢,是本項目建設(shè)的目標(biāo)之一。該工作手冊有助于推進(jìn)方言數(shù)字化研究方式與技術(shù)手段的推廣與普及。

3.《江陰方言新探》(18.6萬字)

該書采用多學(xué)科交叉的多元方法研究江陰方言。首先構(gòu)建江陰方言有聲數(shù)據(jù)庫(附光盤),應(yīng)用數(shù)據(jù)庫語料實驗研究江陰16鎮(zhèn)18方言點(diǎn)的聲調(diào)。根據(jù)實驗結(jié)果,將江陰方言分為五片。應(yīng)用歷史語料與年齡差語料揭示江陰方言近20年的變化。描寫并比較江陰5方言片以及新派的常用詞和特征詞。有同音字匯、記音語法例句、方言故事和曲藝音頻。抽樣調(diào)查江陰的語言生態(tài),多項綜合統(tǒng)計表明,近20年來江陰方言快速萎縮、普通話發(fā)展迅速,這與江陰人的語言態(tài)度密切相關(guān)。

著名方言學(xué)家、復(fù)旦大學(xué)游汝杰教授書評評價:“同時具備四項新內(nèi)容的‘方言志’,《江陰方言新探》應(yīng)該是第一部”。廈門大學(xué)李如龍教授認(rèn)為“采取多學(xué)科交叉、多種方法綜合的研究便可使現(xiàn)代的方言學(xué)‘插翅’”。

該書是運(yùn)用多學(xué)科交叉的數(shù)字化方法研究單點(diǎn)方言的一個成功案例,其模式對推進(jìn)單點(diǎn)方言的數(shù)字化研究有參考意義。本項目單方言點(diǎn)的后期研究成果將以此書為參照。

二、成果清單

序號

成果名稱

作者

成果形式

刊物、出版社名稱及刊發(fā)、出版時間

字?jǐn)?shù)

轉(zhuǎn)載、引用、獲獎等況

1

漢語方言自然口語有聲基礎(chǔ)語庫語料采錄大綱

項目組

著作(稿)

未出版

8.76萬

 

2

漢語方言口語有聲庫語料采制工作手冊

項目組

報告類

未發(fā)表

2.36萬

 

3

江陰吳語新探

劉俐李

侯  超

著作

世界圖書出版公司北京公司,2013

18.6萬

有書評

4

中古陽聲韻韻尾在現(xiàn)代漢語方言中的讀音類型

張燕芬

論文

《語言研究》2012年4期

1.4萬

 

5

江陰吳語近二十年的變化

劉俐李

論文

《語言研究》2013年1期

0.84萬

人大《語言文字學(xué)》2013年5期全文轉(zhuǎn)

6

試析湖北通城方言的入聲韻尾

栗華益

論文

《語言研究》2013年3期

0.7萬

 

7

試析漢語方言入聲韻尾邊音化

栗華益

論文

《方言》2013年4期

1.57萬

 

8

浙江仙居吳語濁內(nèi)爆音的語音學(xué)考察

宋益丹

論文

《方言》2014年2期

0.6萬

 

9

東干語(陜西支)聲調(diào)共時差異實驗研究

劉俐李

論文

《民族語文》2013年5期

1.18萬

 

10

哈密方言的“上”所起的格作用

熱西旦·馬力克、張洋

論文

《民族語文》2014年1期

0.8萬

 

11

“方言實驗工作系統(tǒng)”使方言研究更科學(xué)

劉俐李

論文

《中國社會科學(xué)報》2013年2月18日第A07版

0.25萬

 

12

海洋方言:漢語方言研究新視覺

陳曉錦

黃高飛

論文

《中國社會科學(xué)報》2014年4月14日第七版頭條,并在第一版有提要介紹

 

 

13

基于統(tǒng)計學(xué)習(xí)模型的句法分析方法綜述

吳偉成

周俊生

曲維光

論文

《中文信息學(xué)報》,2013年,第27卷,第3期,9-19
 

0.5萬

 

14

A Practical Method for Chinese All-Word Sense Tagging

Fu Jia, Qu Weiguang

論文

ICIC Express Letters, Part B: Application, Volume 3, Number 6, p 1459-1466, 2012
 

0.5萬

EI檢索

15

詞義歸納綜述

孫玉霞

曲維光

狄  穎

周俊生

論文

計算機(jī)科學(xué),2014,第二期,23-32

0.5萬

 

16

江淮方言入聲時長變異實驗研究

劉俐李

論文

《中國語言學(xué)》第六輯北京大學(xué)出版社 2013

1.5萬

 

17

試析漢語方言入聲韻的元音尾化

栗華益

論文

《語文研究》2013年1期

2.16萬

 

18

實驗方言學(xué)理念與方法芻議——以《江陰方言新探》為例

唐志強(qiáng)

劉俐李

論文

《語文研究》2013年4期

0.4萬

 

19

試析漢語方言入聲韻元音分尾現(xiàn)象

栗華益

論文

《語言科學(xué)》2013年3期

1.6萬

 

20

甘肅境內(nèi)的中原官話研究

莫  超

尹  雯

論文

《語言科學(xué)》2013年6期

1.80萬

 

21

績溪華陽話兩字組連讀變調(diào)分析

栗華益

論文

《中國語學(xué)研究·開篇》(日本)第31期(2012)

0.94萬

 

22

江蘇高淳(淳溪鎮(zhèn))方言音系

侯  超

論文

《中國語學(xué)研究·開篇》(日本)第32期(2013)

0.94萬

 

23

哈密方言非音質(zhì)特征表達(dá)的意義

張  洋

論文

《語言與翻譯》2013年3期

0.5萬

 

24

哈密方言“走”字句

張  洋

田云華

論文

《語言與翻譯》2014年3期

0.6萬

 

25

哈密方言的“下”

張  洋

論文

《新疆社科論壇》

2012年5期

0.55萬

 

26

試論詞匯研究在海外漢語方言研究中的重要性

陳曉錦

論文

《暨南學(xué)報》(哲社版)

2013年9期

 

 

27

漢語詞綴的功能與皖北方言的”子”尾

侯  超

論文

《南京師范大學(xué)文學(xué)院學(xué)報》2012年3期

0.9萬

 

28

普通話態(tài)度語音的感知實驗研究

顧文濤

論文

《南京師范大學(xué)文學(xué)院學(xué)報》2013年9月

0.6萬

 

29

方言與網(wǎng)絡(luò)語言

侯  超

論文

《語文建設(shè)》2013年2期

0.25萬

 

30

宿遷方言古咸山攝舒聲字的今讀

馮青青

論文

《江蘇大學(xué)學(xué)報》

2013年2期

0.77萬

 

31

日照巨峰方言音系及其特點(diǎn)

馮青青

論文

《山東理工大學(xué)學(xué)報》

2014年1期

1.06萬

 

32

《西游記》中“筑”字形義考辨

顧勁松

論文

《鹽城師范學(xué)院學(xué)報(人文社會科學(xué)版)》2012年6期

0.55萬

 

33

鹽城方言古全濁上及濁去字的今讀

馮青青

論文

《鹽城師范學(xué)院學(xué)報(人文社會科學(xué)版)》

2014年1期

0.95萬

 

34

現(xiàn)代漢語“夠+A”格式研究

侯  超

論文

《常熟理工學(xué)院學(xué)報(人文社會科學(xué)版)》2012第9期

0.7萬

 

35

蘇屬江淮官話n、l分混狀況考察

顧勁松

論文

《常熟理工學(xué)院學(xué)報(人文社會科學(xué)版)》2013年5期

0.80萬

 

36

現(xiàn)代漢語方言詞匯研究綜述

顧勁松

論文

《蘇州科技學(xué)院學(xué)報(社會科學(xué)版)》2014年3期

0.90萬

 

37

從民俗中發(fā)掘方言語詞的特殊讀音——梅縣客方言為例

侯小英

論文

《嘉應(yīng)學(xué)院學(xué)報》

2014年4期

0.74萬

 

38

Data acquisition and prosodic analysis for Mandarin attitudinal speech

顧文濤

論文

East Flows the Great River: Festschrift in Honor of William S-Y Wang on his 80th Birthday,香港城市大學(xué)出版社,2013年8月

0.8萬

 

39

Rhythmic Patterns of Nonnative Mandarin Speech

顧文濤

論文

日本音響學(xué)會2014年春季研究発表會論文集,2014年3月

0.3萬

 

40

Prosody of Mandarin affective speech by mentally retarded children

顧文濤

論文

Proceedings of WASSS

2013年8月

0.4萬

 

41

東北、華北方言中后置原因標(biāo)記“的事兒”

梁曉玲

論文

《語文教學(xué)通訊》

2013年9期

0.5萬

 

42

哈密方言的復(fù)數(shù)詞綴“跟前”

張  洋

論文

《新疆職業(yè)大學(xué)學(xué)報》

2012年6期

0.55萬

 

43

哈密方言的處所疑問代詞“哪達(dá)”

張洋

田云華

論文

《新疆職業(yè)大學(xué)學(xué)報》  2014年3期

0.6萬

 

44

悉尼粵方言廣府話

陳曉錦

論文

《粵語研究》

2012年12月,澳門

 

 

45

東南亞華人社區(qū)漢語方言創(chuàng)新詞分析

陳曉錦

論文

《南方語言學(xué)》第五輯,暨南大學(xué)出版社,2013年

 

 

46

東南亞華人社區(qū)兄弟漢語方言的互借詞

陳曉錦

論文

《粵語研究》2013年6月,澳門

 

 

47

從語言接觸看粵語對廣州地區(qū)客家話的影響

陳曉錦

肖自輝

論文

《第十五屆粵方言研討會論文集》,澳門粵方言學(xué)會,2012年12月。

 

 

48

廣州的客家方言

陳曉錦

鄭  蕾

論文

《第九屆客家方言學(xué)術(shù)研討會論文集》,中央民族大學(xué)出版社,2013年1月

 

 

49

馬來西亞沙巴客家話借詞淺析

陳曉錦

卓俊霖

論文

《第九屆客家方言學(xué)術(shù)研討會論文集》,中央民族大學(xué)出版社,2013年1月

 

 

課題組供稿
(責(zé)編:實習(xí)生、張文卓(實習(xí)生))
哈尔滨市| 盖州市| 衡阳县| 芜湖县| 年辖:市辖区| 潍坊市| 顺昌县| 石泉县| 唐山市| 房产| 沾益县| 临漳县| 江门市| 罗江县| 革吉县| 长丰县| 岳普湖县| 南安市| 纳雍县| 金阳县| 金门县| 白城市| 屯门区| 弥渡县| 阿城市| 德昌县| 大港区| 徐州市| 云梦县| 万宁市| 西宁市| 礼泉县| 津市市| 平潭县| 积石山| 江永县| 资中县| 绥江县| 宁明县| 石阡县|