舊版網(wǎng)站入口

站內(nèi)搜索

推動大數(shù)據(jù)時代的語言資源建設(shè)

龍國貽2019年11月12日08:18來源:中國社會科學網(wǎng)-中國社會科學報

原標題:推動大數(shù)據(jù)時代的語言資源建設(shè)

黨的十八大以來,習近平總書記高度重視語言文字工作,對推廣普及國家通用語言文字、傳承弘揚中華優(yōu)秀語言文化等作出一系列重要指示,為我國語言資源建設(shè)進一步指明了方向,確立了根本遵循。近年來,學術(shù)界、社會上對于語言資源建設(shè)的重要意義正在形成越來越廣泛的共識,認為語言和基因一樣,是附著于人類自身的物質(zhì)存在,不僅承載著人類思維和經(jīng)驗,還承載著族群的歷史和文化,亟待調(diào)查、整理、保護、傳承。隨著這一認識理念的深化和傳播,尤其是借助大數(shù)據(jù)時代提供的各種便利條件,語言資源建設(shè)在全國范圍如火如荼開展起來,各個語言資源建設(shè)中心如雨后春筍,紛紛破土而出、茁壯成長,呈現(xiàn)出生機勃勃的景象。

新中國的語言資源建設(shè)成就前所未有

我國歷來重視語言資源,在語言資源的建設(shè)方面取得了許多成就,如石文碑刻、韻書字典等,但也有缺憾和不足,如偏重書面語、對口語較為忽視等。新中國成立以來,黨和政府在繼承基礎(chǔ)上大膽創(chuàng)新,語言資源建設(shè)取得了前所未有的成就。

新中國成立之初,我國語言資源建設(shè)處于草創(chuàng)期,主要工作在于語言普查和文字創(chuàng)制。1956年,全國漢語方言普查和民族語普查幾乎同步開展。草創(chuàng)期語言資源建設(shè)的主要方式是使用卡片展開記錄。20世紀八九十年代,我國語言資源建設(shè)進入發(fā)展期,語言資源建設(shè)手段更加多元、工作更為深入,集中表現(xiàn)為:一是繪制《中國語言地圖集》,全面反映了我國漢語方言和少數(shù)民族語言分布的復(fù)雜面貌。二是出版語言志書、語言研究叢書和系列詞典等。各地不僅新修方志都增加了方言志,而且專門的方言志、民族語言志也大量出現(xiàn),如“山西省方言志叢書”等。語言研究叢書中較有代表性的是賀巍、張振興主持的“漢語方言重點調(diào)查”的成果,以及中國社會科學院民族學與人類學研究所組織編寫的《中國新發(fā)現(xiàn)語言研究叢書》和《中國少數(shù)民族語言方言研究叢書》。影響較大的詞典是中國社會科學院語言研究所組織編纂的《現(xiàn)代漢語方言大詞典》41種分卷本和中國社會科學院民族學與人類學研究所主編的“中國少數(shù)民族語言系列詞典叢書”。三是建立了一批方言音檔,其中較有代表性的是侯精一組織建設(shè)的“現(xiàn)代漢語方言音庫”,內(nèi)含漢語方言40種代表點的語音系統(tǒng)、字音、詞匯、語法例句和長篇語料。四是組織了數(shù)次語言使用情況調(diào)查,如中國社會科學院民族學與人類學研究所和加拿大拉瓦爾大學合作,按照語言活力參項框架展開的少數(shù)民族語言文字使用情況調(diào)查。發(fā)展期的語言資源建設(shè)仍以紙筆調(diào)查為主,已經(jīng)涉及現(xiàn)代化錄音技術(shù),實現(xiàn)了自然語音采錄。21世紀以來,我國語言資源建設(shè)迎來了繁榮期,其特點在于實驗語音等現(xiàn)代手段和多媒體技術(shù)的普遍應(yīng)用,集中表現(xiàn)為出了若干有分量、有代表性的重大學術(shù)成果,如《中國的語言》《漢語方言地圖集》和“新時期中國少數(shù)民族語言使用情況研究叢書”等。這一時期,國家層面組織了幾次較大的語言保護工作。如2015年,教育部、國家語委啟動“中國語言資源保護工程”,利用現(xiàn)代化技術(shù)記錄漢語方言、民族語言和口頭語言文化的動態(tài)語料,成果形式為語言志、語言文化典藏、語言地圖集和語言資料深度開發(fā)服務(wù)等。

直面大數(shù)據(jù)時代語言資源建設(shè)的機遇與挑戰(zhàn)

近年來,隨著計算機和互聯(lián)網(wǎng)技術(shù)的發(fā)展,語言學的研究逐漸進入了大數(shù)據(jù)時代。一些龐大的語言數(shù)據(jù)庫紛紛建立起來。不過,數(shù)據(jù)庫材料來源良莠不齊,記音方法各不相同,給學術(shù)界使用這些資料帶來困難,也影響了以此為素材進一步分析得出結(jié)論的可信性和科學性。對語言資源建設(shè)而言,大數(shù)據(jù)既是機遇,又有挑戰(zhàn)。

一是對語言資源建設(shè)的規(guī)模提出了更高的要求。以語言地圖的繪制為例,《漢語方言地圖集》中以各地數(shù)百個方言中“家”字的讀音,反映見母開口二等字在現(xiàn)代漢語方言的語音面貌。大數(shù)據(jù)時代的語言資源建設(shè),要求我們必須獲取海量數(shù)據(jù),既不能僅限于幾百個方言點的材料,更不只是以“家”這一個字的讀音來代替見母開口二等這一批字。我們可以通過全國方言材料來獲取一大批見母開口二等字在一兩千個現(xiàn)代漢語方言土語中的語音形式,用大數(shù)據(jù)的方法規(guī)避個別數(shù)據(jù)錯誤所帶來的影響,使研究的結(jié)論更為科學。

二是對語言資源建設(shè)的人才和技術(shù)提出了更高的要求。比如,如何調(diào)試信噪比、如何避免撲麥和削波等現(xiàn)象,從而獲取高質(zhì)量、高保真的錄音材料,建設(shè)有聲語言數(shù)據(jù)庫;如何開發(fā)設(shè)計同音校驗軟件,組織專業(yè)人士對調(diào)查材料進行反復(fù)校驗,從而確保材料準確可靠;如何進一步建設(shè)聲學參數(shù)數(shù)據(jù)庫,如何深入挖掘數(shù)據(jù)、利用語言數(shù)據(jù)展開深入的專業(yè)研究。這不僅需要對調(diào)查人員和研究人員進行相應(yīng)的技能培訓,而且大數(shù)據(jù)時代所帶來的研究范式的改變,迫使研究人員不斷提高專業(yè)素養(yǎng)和研究能力。

三是對語言資源建設(shè)的標準化和規(guī)范化提出了新的要求。除了需要建立行業(yè)統(tǒng)一的記音規(guī)范和錄音規(guī)范,使不同人員和不同團隊的調(diào)查數(shù)據(jù)可以統(tǒng)一開發(fā)利用,我們還需對以往的調(diào)查數(shù)據(jù)進行檢驗整理和二次規(guī)范,從而建設(shè)更為龐大的語言資源數(shù)據(jù)庫。統(tǒng)一規(guī)范的制定,需要業(yè)內(nèi)專家們共同擬定并達成學界共識;如何對已有數(shù)據(jù)庫迅速實現(xiàn)機助校驗和二次規(guī)范,更是需要深入探討的問題。

把握大數(shù)據(jù)時代語言資源建設(shè)新特點

當前,借助于飛速發(fā)展的現(xiàn)代信息技術(shù),語言資源建設(shè)駛上快車道,呈現(xiàn)出若干新趨勢、新特點。一是高度集聚、整體推進。黨和國家的高度重視、政府和相關(guān)單位的大規(guī)模投入以及廣大優(yōu)秀人才的積極參與,都將使我國語言資源建設(shè)取得豐碩成果。隨著相關(guān)項目組織越來越有效、調(diào)查越來越集中、研究越來越規(guī)范,語言資源建設(shè)會出現(xiàn)相對集聚、高度融合的態(tài)勢,并形成一定程度的規(guī)模效應(yīng),進而促進整體發(fā)展。我國語言資源建設(shè)將呈現(xiàn)更集聚、更綜合、更系統(tǒng)的勢頭,推動語言資源得到統(tǒng)一規(guī)劃、綜合開發(fā),從而實現(xiàn)整體發(fā)展,形成規(guī)模效應(yīng),以更好地為國家語言戰(zhàn)略、社會語言生活和語言學術(shù)研究服務(wù)。

二是共建共享、團結(jié)合作?v觀全國語言資源建設(shè)的發(fā)展脈絡(luò)和運行軌跡,可以發(fā)現(xiàn)其發(fā)展和運行的每個步驟、每一環(huán)節(jié)都離不開共建共享、團結(jié)合作。新時代的語言資源建設(shè)對此提出了新的更高要求,這不是某個單位、某個團隊就能做好的,而是需要多個領(lǐng)域、多個單位、多個地域的專家學者和科研人員共同參與、群策群力,發(fā)揮出集團作戰(zhàn)優(yōu)勢。如國家語委和教育部的語言資源建設(shè)都是舉全國之力,各大科研院所和高校幾乎全部投入,無一置身事外。通過合作共建,加大了人類語言音變通則提取的可能性,促進了演化語言學的長足發(fā)展,既能八仙過海、各顯神通,又能群英薈萃、百舸爭流。一方面,田野調(diào)查的錄音設(shè)備和技術(shù)可以共享,以提升整體的攝錄質(zhì)量;由各人調(diào)查記錄自己所擅長和熟悉的語言或方言,能夠提升整體的專業(yè)質(zhì)量。另一方面,調(diào)查成果也可以共享,研究成果可以互促。一旦有了語言數(shù)據(jù)庫的有力支撐,有時候表面看起來雜亂無章的現(xiàn)象,也能夠通過計算、處理和分析,挖掘出潛藏的重要信息。

三是形式多樣、內(nèi)容豐富。以前的語言資源建設(shè)和保護工作,形式較為簡單,內(nèi)容也十分有限,最終形成只有專業(yè)人士才能看懂的語言或方言調(diào)查報告。相比之下,現(xiàn)在的語言資源建設(shè)和保護工作發(fā)生了歷史性變化。形式上,不再限于書面的紙筆記錄,已經(jīng)擴大到高質(zhì)量、高保真的聲音和圖像攝錄。內(nèi)容上,不僅限于方言字表、詞表或民族語義項表的調(diào)查記錄,還涵蓋豐富的民歌、故事、曲藝、說唱、成語、歇后語、口傳文化、非物質(zhì)文化遺產(chǎn)等內(nèi)容。成果上,不僅包括語言調(diào)查報告及其有聲資料,還有方言和民族語電影、小品、相聲等。隊伍上,與過去只有學者和學生參與語言資源建設(shè)工作不同,如今的語言資源建設(shè)隊伍更加壯大,除了語言學專業(yè)人士,還會邀請媒體加盟,舉辦一系列宣傳活動,受到普遍歡迎。效果上,過去的語言資源建設(shè)成果,主要用于小眾的語言研究,現(xiàn)在的語言資源建設(shè)成果,不僅促進了語言學大發(fā)展大繁榮,更為國家語言戰(zhàn)略、規(guī)劃和政策的制定實施提供了可靠依據(jù),為各民族之間交往交流提供了平臺和服務(wù),大大豐富了社會公眾的語言文化生活。

放眼未來,語言資源建設(shè)充滿希望,是一項需要共同奮斗、長期堅持的任務(wù)。只要解放思想、與時俱進,將語言資源建設(shè)置于社會進步和文化繁榮的大背景之下,充分調(diào)動各方面資源,廣泛匯聚各方面力量,就能夠更好地開發(fā)、保護和利用中國的語言資源,使語言資源建設(shè)始終能夠與國家齊發(fā)展、同時代共進步。

 (作者單位:中國社會科學院民族學與人類學研究所)

(責編:孫爽、艾雯)
晋宁县| 郑州市| 陈巴尔虎旗| 岳池县| 汉沽区| 福清市| 玉屏| 桦南县| 措勤县| 普洱| 达孜县| 久治县| 屏山县| 巩义市| 辽中县| 雅安市| 顺平县| 榆社县| 湾仔区| 玉树县| 土默特右旗| 昌都县| 兴仁县| 宜丰县| 荆州市| 台安县| 双辽市| 察隅县| 苍南县| 锡林郭勒盟| 湘潭县| 眉山市| 嵩明县| 华坪县| 祁东县| 禹城市| 政和县| 湖南省| 和田县| 灵石县|