舊版網(wǎng)站入口

站內搜索

《漢語盲文語料庫建設研究》中期檢查報告

2016年03月10日15:33

一、 研究進展情況

① 研究計劃總體執(zhí)行情況及各子課題進展情況

1. 研究計劃總體執(zhí)行情況

漢語盲文語料庫建設的理論研究按照預期計劃進行,基本達到了預期目標,成果表達略有滯后。首先對漢語盲文語料庫的理論地位和實際功能進行了深入研究,明確了漢語盲文語料庫作為一種有鮮明特色的漢語語料庫,將擴展?jié)h語語言資源類型和功能,豐富漢語語言資源,具備服務于盲文教學、盲文本體研究、盲文信息化、盲文教材、盲文詞典編寫等多種功能。將建設目標確定為包含約1,000萬方盲文的平衡性較高、代表性好,經(jīng)過多層級信息標注,在盲文領域內通用性好,盲文-拼音-漢字對照的專用型語料庫。由于標注可以選擇性刪除,如果將盲文及其相關標注刪除,它可以變成一個較大規(guī)模的漢語語音標注語料庫,也是特殊分詞連寫、特殊標調的漢語注音語料庫。這也是對我國缺少漢語注音語料庫的一個積極補充。

盲文語料庫建設實踐研究略有超前。盲文語料的采集研究和實踐超額完成任務,截止2015年6月底,采集589個語篇,盲文320萬方,完成了采集任務總量的32%,超額完成了2015年全年的采集計劃。對全部盲文語料進行了拼音、漢字的自動標注,已經(jīng)完成了460個語篇(約250萬方)盲文及其對應的拼音、漢字的人工校對,其中270個語篇完成了三校,準確率達到99.9%以上,超額完成了2015年全年的對照標注計劃。開始了語言信息標注試驗,包括對盲文(原始語料已經(jīng)分詞)的詞性標注、對漢語原文的重新分詞及詞性標注試驗。按照預定計劃建成了漢語盲文語料庫小規(guī)模原型系統(tǒng),漢語盲文語料庫建設的路徑已經(jīng)從理論上打通,可以預期在下一步大規(guī)模建設中沒有不可逾越的障礙。

2. 各子課題進展情況

2.1 盲文語料庫建設規(guī)范制定與質量檢查子課題研究進展

2.1.1 研究制定盲文語料庫采集原則與采集規(guī)范

通過恰當?shù)倪x材原則提高盲文語料庫的語料平衡性和樣本代表性。為了將漢語盲文語料庫建設成通用性、平衡性較好的語料庫,盲文語料應能夠代表1953年現(xiàn)行盲文發(fā)布至今的實際使用全貌,語料樣本的選取應具有廣泛性和代表性。

語料樣本的歷時分布:

? 近期為主的原則(1995年國家標準頒布以后占70%左右)

? 早期為輔的原則(1953-1995年占30%左右)

? 早期不等比例遞減原則

語料樣本的共時分布:

? 正式盲文出版物為主的原則(占85%左右)

? 中國盲文出版社與上海盲文印刷廠等比例原則(約5:1)

? 圖書、教材為主,期刊雜志為輔的原則(約9:1)

? 圖書語料大類均衡性原則

? 非正式出版物(7%-8%)

? 盲校(試題、講義、校本教材)為主的原則

? 高校、其他單位為輔的原則

? 區(qū)域代表性原則

? 理論完備服從于現(xiàn)實可能的原則

? 個人語料(7%-8%)

? 規(guī)范性篩選原則(作文、答卷、投稿、通信等他讀文本)

? 區(qū)域代表性原則

? 年齡代表性原則

? 理論完備服從于現(xiàn)實可能的原則

根據(jù)開題專家建議,會同采集子課題組研究決定:由盲文出版編校人員按照出版的標準翻譯,增補與期刊比例相當?shù)膱蠹堈Z料及網(wǎng)絡新媒體語料。

2.1.2 研究制定盲文語料庫標注規(guī)范

為盲文規(guī)范化、標準化、信息化及盲文基礎研究和教學研究的需要,盲文語料庫需要對盲文文本進行多層級的信息標注。一方面需要標注盲文的漢語拼音和對應漢字,一方面需要標注盲文的分詞連寫和標調方式,同時還需要標注詞性。為提高語料庫建設效率、提高成果的價值,參照已有的漢語語料庫規(guī)范標準和成熟方法,根據(jù)盲文語料的特點研究提出了盲文語料庫標注規(guī)范。

重點標注盲文字符和詞匯層面的信息,增強盲文語料庫的易用性。對盲文語料庫的生語料、對照語料、標注語料以XML標記語言的方式置標和存儲,參考XCES標準,制定盲文語料庫XML語言信息項標記和格式規(guī)范。與普通漢語語料相同標注信息采用常規(guī)的標注符號,研究設計了特殊標注符號集,以滿足盲文特殊的分詞連寫標注的需要。

盲文語料庫標注原則:

? 遵循常規(guī)的Leech標注7原則

? 簡化原則

? 實用性原則

? 針對性原則(分詞連寫、標調)

漢語盲文與明眼文在語義層面是一致的,盲文語料庫不需要進行語義標注。盲文觸覺信息標注的重點是組合缺陷符號標注。單方缺陷符號,可以由檢索表直接檢出、統(tǒng)計,而不需要一一標注。

2.1.3 進行采集、標注質量檢查

研究制定了盲文語料庫建設質量檢查方法,包括標準符合性、語料正確率、標注正確率、標注一致性等方面。采用計算機自動全面檢查與人工抽查相結合,以計算機檢查為主的方法,并且把對上一道工序的檢查納入下一道工序的研究內容。在語料庫建設網(wǎng)站開辟了“問題討論與交流”專區(qū),人人都是質量檢查員。對采集環(huán)節(jié)中漢語原文圖片順序、盲文樣本方數(shù)超標及不達標問題進行了監(jiān)督檢查,提請采集組及時進行修改。對計算機拼音-漢字自動標注進行檢查和人工校對,對提出的問題集中修改軟件。對人工校對錯誤率進行全面普查,錯誤率在0.5%以下的由檢查員修改,錯誤率在0.5%以上的發(fā)回,由校對員重新校對。通過了第一次檢查的,再隨機抽取30%進行二次抽查。

語言信息、觸覺信息標注剛開始試驗,沒有檢查。

2.2盲文語料調查和語料采集子課題研究進展

采集組成員主要分布在北京、上海兩家盲文出版單位,首先對各自單位的盲文出版物情況進行了調查。盲文語料庫以新中國1953年正式頒布現(xiàn)行盲文以來所有的盲文語料為研究總體,以正式出版物為主,非出版物、個人語料為輔。由于現(xiàn)行盲文分詞連寫和標調規(guī)則自由度大,建立了嚴格的采集規(guī)范。盲文語料的采集面要廣,樣本數(shù)要多,并且要適度增大樣本的容量。根據(jù)選材原則,采用分層隨機抽樣方法收集連續(xù)盲文文本片段,出版物語料占總語料的85%左右,每個語篇樣本采集5,000±500方,每個出版物最大采集3個語篇。非正式出版物和個人語料占總語料的15%左右,每個語篇樣本采集2,000±200方,每個人最多采集3個語篇。

根據(jù)語料采集原則研究制定了盲文出版物的采集方法,本著先易后難的原則,先采集中國盲文出版社、上海盲文印刷廠1995年以后有電子版的盲文語料及其漢語原文。研究了試點采集的方法與步驟,進行了采集軟件試驗。對電子版盲文語料直接采集上傳到盲文語料庫建設專用網(wǎng)站。由于盲文出版單位沒有漢語原文電子版,紙質版上有許多盲文編校做過的標示,嚴重影響識別準確率。研究決定放棄OCR采集漢語原文電子版語料。通過掃描的方式將漢語原文語料以圖片形式上傳,通過采集軟件與對應的盲文語料匹配。漢語原文電子語料通過計算機自動標注和根據(jù)原文圖片的人工校對獲得。

開始研究個人語料和無電子版盲文語料的采集。無電子版的盲文語料以圖片方式采集后,進行數(shù)字化處理,人工校對。檢查合格后,盲文圖文對齊保存到語料庫。開始調研非正式出版物盲文語料、個人盲文語料的情況。已經(jīng)收集北京聯(lián)合大學特殊教育學院、長春大學特殊教育學院2014、2015屆單考單招盲文試卷(作文)266份(重復參加考試的尚未剔除),收集《盲人月刊》盲文投稿46件。待紙質數(shù)字化能夠實用后,再采集到盲文語料庫網(wǎng)站。

2.3 盲文語料庫標注加工子課題研究進展

研究制定了盲文語料庫標注方案,盲文語料庫要進行三類標注,即:盲文-拼音-漢字對照標注、盲文觸覺信息標注、語言信息標注。語言信息標注的重點是盲文分詞連寫單位及其語法屬性。漢語拼音是盲文和明眼文的中介層,拼音特別是聲調信息是標注重點。盲文語料經(jīng)標注后最終將生成9行對照文本。

1)盲文原文,盲文語料庫采用盲文字符Unicode國際標準字符集(U2800—U28FF)作為盲文字符規(guī)范,以提高語料庫的跨計算機、跨平臺兼容性,盲文語料存在不同編碼的情況,需要將語料樣本全部轉換成Unicode盲文字符。

2)觸覺信息標注,主要標注語料的觸覺特征,特別是組合缺陷符號,方便用戶提取例文。

3)盲文拼音標注,標注盲文點字對應的漢語拼音。

4)盲文詞匯標注,標注盲文對應的漢字內容,即盲文的連寫單位和特殊的分寫單位。

5)盲文詞性標注,由于盲文分詞連寫中存在許多非詞單位,其詞性標注需要制定特殊的規(guī)范,詞性標注的重點是客觀描寫盲文連寫單位的構詞特征。

6)漢語原文/譯文,根據(jù)盲文標注出對應的漢語原文,有原文的根據(jù)原文圖片進行人工校對,沒有原文的根據(jù)語境進行人工校對。

7)漢語拼音標注,根據(jù)漢語原文/譯文進行拼音標注,根據(jù)漢語拼音正詞法基本規(guī)則進行聲調標注。

8)漢語分詞標注,根據(jù)漢語拼音正詞法基本規(guī)則對原文/譯文進行分詞標注。

9)漢語詞性標注,對漢語標注分詞單位進行常規(guī)的詞性標注。

課題組目前對采集的盲文語料已經(jīng)批量完成了第3、6層的標注,其他層的標注也已開始實驗,全部標注采用機注人校的方式進行。由于盲文基本未標調,計算機漢字標注錯誤多,需要大量的人工校對。目前,漢字標注人工校對的主力是北京聯(lián)合大學特殊教育學院、濰坊學院特殊教育的23名學生,拼音校對或盲文疑難問題由上述學院的4位盲文教師和中國盲文出版社3位盲文編校(明眼人)校對。

經(jīng)質量檢查,拼音及漢字錯誤率低于0.1%的語篇為合格語篇,可以進入下一步標注工序。

2.4 盲文語料庫建設計算機輔助軟件研發(fā)子課題研究進展

盲文語料庫建設既需要利用通用的信息技術手段,還需要研發(fā)盲文相關的專用輔助軟件。第一類是語料庫采集輔助軟件,主要為盲文語料采集、錄入、存儲服務,如盲文電子化資料的數(shù)據(jù)采集軟件、紙質盲文語料的數(shù)據(jù)采集軟件等。第二類是語料庫標注加工輔助軟件,主要為語料庫漢盲對照標注、語言信息標注、觸覺信息標注提供輔助,如漢盲多行平行對照標注輔助軟件、語言信息標注及人工校對工具軟件等。由于盲文點字之間的區(qū)分度小,標注時易出錯,輔助軟件還要具備錯誤提示功能,以提高標注效率。

建設了漢語盲文語料庫建設專用網(wǎng)站,進行元數(shù)據(jù)采集及管理,盲文語料與對應漢語原文語料的采集、存儲、匹配等。從中國盲文出版社專用封閉的BWord文檔、上海盲校PRT盲文文件活化出盲文電子文本,使僵化的6點盲文離開專用軟件能夠生存,使課題組有了對漢語盲文信息化處理的基礎。

設計開發(fā)了盲文-拼音-漢字自動對齊標注軟件和人工校對輔助軟件。將漢語拼音從計算機后臺拉到顯示屏,突出了漢語拼音在漢語盲文中應有的本源地位,架起了盲文與漢字溝通的橋梁。本軟件對盲文自動拼音標注準確率達到到99%以上。對盲文標志符號、指示符號進行錯誤提示。提供疑問、偏誤標注按鈕,記錄錯誤有利于訓練標注軟件,記錄疑問有利于核查。提供查找盲文—替換漢字功能,選中拼音,懸浮備選字詞,減少鍵盤輸入,提高人工校對效率。利用高準確率的拼音行,盲文不熟練的學生也可進行盲-漢校對。

語料庫管理軟件和盲文語料語言信息標注軟件正在研制中。紙質盲文數(shù)字化處理也正在研制中。

② 調查研究及學術交流情況(調研數(shù)據(jù)整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等)

進行盲文正式出版物語料調查。盲文出版物的豐富性雖然不可與漢語同日而語,但是也有60年的積淀,有曲折復雜的歷史變化。我國對漢語盲文出版物的學術研究很少。摸清盲文出版物的情況,掌握第一手資料,進而提高出盲文版物語料采集的代表性。

對中國盲文出版社1953年至2014年5162種盲文讀物(包括圖書和期刊),進行整理統(tǒng)計,各類讀物比例為:中國文學15.2%、醫(yī)學16.5%、醫(yī)學教材5.8%、文教科體11.7%、教材教輔12.2%、政治7.6%、歷史地理5.4%、馬恩列斯毛鄧著作5.1%;藝術3.8%、外國文學3.6%、法律3.4%、哲學2.9%、語言文字1.9%、經(jīng)濟類2.4%、綜合性讀物2.5%。醫(yī)學和醫(yī)學教材所占比例最大,這是服務盲人從事按摩推拿職業(yè)需求的結果。除了教材教輔外,將其余歸類整理為:文學、文綜、醫(yī)學、理綜、其他五大類,有利于分類采集。由于中國盲文出版社藏館較多,中間搬過家,存在館藏目錄信息不準的情況,有些書目難以精準查找。可以利用版本圖書館作為救急,但是,初步查詢后,發(fā)現(xiàn)版本圖書館并沒有真正保有每個盲文版本的圖書。歷史較長的盲校圖書館還可以做最后的補充。

上海盲校盲文印刷廠從1959年9 月開始為外校制作盲文教材。 1986年以來,為全國盲校印制盲文中小學各年級各學科(體育、美工除外)教材以及部分盲文課外讀物,該廠印制的盲文教材均以人教版為藍本。1995年開始制作盲人普通高中盲文教材。義務教育盲文教材為上海盲校盲文印刷廠專屬,包括語文、數(shù)學的隨班就讀用書。義務教育以上階段的教材和各學段的課外讀物、練習冊、詞語手冊等,北京、上海兩家出版社都有制作。

上海盲校盲文印刷廠生產的盲文教材樣本及其電子版(1995年以后)都保存完好。但是,其盲文電子版軟件的PRT格式不尋常,整個文件像一塊雕版,不可選中其中的部分,無法復制粘貼到另外的文檔。需要破譯其“密碼”,開發(fā)專門的PRT讀取工具,才能將要采集的盲文電子版上傳到盲文語料庫。

進行非正式出版物及個人盲文語料調查。非正式出版物是指經(jīng)過他人校對并且機器刻印的盲文資料,主要包括盲校制作的試卷、講義、翻印的教材等。這些語料能夠反映盲文在實際使用中的情況,可以研究非專業(yè)出版人員使用漢語盲文的情況。通過調查摸清持有非正式出版物的盲文語料單位,語料的類型、數(shù)量、質量等。在可能的程度上提高非正式出版物盲文語料的代表性。

個人語料是指盲人寫給他人讀的、未經(jīng)別人校對的盲文材料,例如:答卷、作文,投稿、通信等。通過個人語料可以研究盲人分詞連寫、標調等情況,考察不同方言區(qū)盲人盲文標調的情況。盲人自讀的盲文資料往往包含個人的簡記符號,不宜收錄到盲文語料庫,不在調查范圍。

社會成年盲人語料的調查是難點,已經(jīng)委托中國盲人協(xié)會進行盲人個人保有盲文語料情況調查。進行了北京聯(lián)合大學、長春大學2所特殊教育學院盲文作文試卷調查,并收集了近二年紙質版盲文語料。開始了初等教育盲校制作盲文語料數(shù)量、種類及其電子版原文保有情況調查,數(shù)據(jù)還沒有反饋回來。

③ 成果宣傳推介情況(成果發(fā)布會、《工作簡報》報送情況、國家社科基金?陡寮安捎们闆r等)

首次大規(guī)模宣傳是與開題論證會同時進行的,開題會的同時進行了新時期首都特殊教育發(fā)展高層論壇,擴大了課題開題的影響力。許多傳統(tǒng)媒體和新媒體圍繞我國將首次建設漢語語料庫進行了大量的報道,給予了高度評價。光明日報、中國教育報、現(xiàn)代教育報及北京地方報紙等傳統(tǒng)媒體進行了報道,新華網(wǎng)、光明網(wǎng)、鳳凰網(wǎng)、千龍網(wǎng)、國圖空間、國家手語和盲文研究中心、中國教育科學院及江蘇、河北、吉林等地方社科網(wǎng)站也進行了報導。在北京聯(lián)合大學學報(社科版)等進行了宣傳。

在中國殘疾人聯(lián)合會、中國盲人協(xié)會、國家手語和盲文研究中心相關會議、網(wǎng)站進行了研究過程的宣傳和報道。在第八屆語言文字應用研討會、第十屆中國信息無障礙論壇、全國盲人協(xié)會2014、2015年會上進行了成果宣傳和推介。通過國家、省、自治區(qū)盲協(xié)主席,向廣大盲人宣傳國家對盲人文化基礎建設、盲人語言文字權益平等的高度重視。

2014年報送《工作簡報》一份、核心成果一份(《建設漢語盲文語料庫的意義與價值》5000字)。2014年10月30日向國家社科基金?陡逡环荩ā督ㄔO漢語盲文語料庫 推動盲文基礎建設》2000字)未被采用。

④ 研究中存在的主要問題、改進措施,研究心得、意見建議

由于我國盲文研究力量薄弱,全國僅有我們這一個團隊,而這個團隊承擔國家社科基金重大項目很感力量不足,特別是理論研究方面。由于沒有博士點,人才培養(yǎng)方面很困難,缺少一支骨干力量。北京聯(lián)合大學特殊教育學院計劃2015年招生特殊教育語言學盲文方向碩士1人,教育部語言文字應用研究所的碩士生研究方向向盲文靠攏。北京聯(lián)合大學特殊教育學院計劃新進半個計算語言學博士專職進課題組,計劃動員中國教育科學院特殊教育研究室、南京特殊教育師范學院有盲文研究基礎的專家為本項目研究貢獻力量。

近年來,國家社科基金連續(xù)部署了“基于漢語和部分少數(shù)民族語言的手語語料庫建設研究”和“漢語盲文語料庫建設研究”2個重大項目。這是國家對殘疾人語言基礎工程高度重視,是對弱勢群體語言文字權益平等的高度重視。課題組承擔這樣艱巨而光榮的任務,深感責任重大、使命光榮、壓力無限,課題組成員決心勤奮努力、扎實工作,無愧于使命,無憾于自心。

盲文語料庫不僅建成以后可以為盲文研究服務,在建設初期已經(jīng)能夠為盲文標調提供實證數(shù)據(jù)的基礎,建設過程也是盲文研究深入的過程,并且與傳統(tǒng)研究的維度可以互補。

這些年從事盲文研究,動力來自國家的重托和盲人的感動。從2004年第一個國家社科基金項目,我們的團隊和盲人群眾一直互相感動著。本重大項目立項以來,首席專家和許多核心成員的身體健康指數(shù)、心理幸福指數(shù)大幅度下降。但是,為了弱勢群體語言文字權益平等、為了盲人文化的發(fā)展大業(yè),為了國家的重托和盲人的期望,誓將無怨無悔地把冷板凳坐到底。

在沒有管理國家重大項目經(jīng)驗、沒有研究重大項目學術氛圍的單位,沒有博士點的學科設立重大項目確實應慎之又慎。大家都有為國出力的良好愿望,重大項目是無尚光榮的任務,同時也可能是超限的壓力。

二、 研究成果情況

三、 盲文語料庫建設工作網(wǎng)站

盲文語料庫建設網(wǎng)站基本架構及研究資源

元數(shù)據(jù)采集界面

盲-漢語料采集上傳過程

盲文—拼音—漢語三重對齊信息化標注

盲文—拼音—漢語語料人工校對

問題討論與交流專區(qū)

通過漢語盲文語料庫建設專用網(wǎng)站,可以跨時空作業(yè)。實現(xiàn)了網(wǎng)絡與單機的互通,可以利用全國各地的盲文人才資源,滿足不同空間課題組成員同時、異時研究盲文語料庫建設的需要,開拓了課題研究的時間與空間。

2.《漢語盲文語料庫建設方案》(論文)

本論文闡明了現(xiàn)行盲文的文字地位,F(xiàn)行盲文在詞匯層面與漢語拼音有顯著差別,它的分詞連寫和標調(技術方案)與漢語拼音有本質的不同,現(xiàn)行盲文還具有了流通性和法定性,參照周有光先生的觀點,現(xiàn)行盲文應該說是一種(拼音)文字。它既有別于漢語拼音,又與漢語拼音有密切的聯(lián)系。可以認為現(xiàn)行盲文與漢語拼音是同源異構體。作為記錄漢語的漢字,現(xiàn)行盲文與它的距離很遠,他們分屬性質不同的技術方案。

《漢語盲文語料庫建設方案》從現(xiàn)行盲文分詞連寫和標調方面的特點論述了建設專門漢語盲文語料庫的意義與價值。論證了盲文語料庫應該是具有較大規(guī)模(約1000萬方盲文)、經(jīng)過語言信息和觸覺信息多層級對照標注的語料庫。該語料庫的建設可促進對我國盲文發(fā)展全貌的把握和了解,促進盲文基礎研究、信息化、規(guī)范化研究,助力盲文信息無障礙水平提升。論證了語料庫選材原則、樣本采集、語料標注規(guī)范、標注方案、輔助軟件研發(fā)計劃等關鍵問題,詳細說明了盲文語料庫建設的主要內容和初步方案,并確定了攻克盲文語料庫建設重點和難點問題的路徑和方法。

3.《漢語盲文的升級之路》(論文)

從我國盲文坎坷的發(fā)展歷程探討了盲文語料庫在漢語盲文未來升級的里程碑意義,介紹了盲文語料庫的功能與作用。通過對盲文語料庫中的語料進行觀察、比較,在統(tǒng)計分析的基礎上尋找漢語盲文使用的規(guī)律,并對先前盲文規(guī)范的執(zhí)行情況進行驗證或總結。通過盲文語料庫可以直接對盲人實際讀寫的盲文語料進行客觀的定量研究,全面了解現(xiàn)行盲文方案頒行60年來我國盲人語言生活狀況。通過盲文語料庫提供的符號、詞匯、語音等大量的真實語料及統(tǒng)計數(shù)據(jù),可以全面了解驗證盲文規(guī)則的實際執(zhí)行情況,分析客觀存在的差異,作為修訂、構建新規(guī)則的基礎。盲文語料庫可為升級盲文規(guī)則,修訂使用規(guī)范提供堅實的基礎數(shù)據(jù)平臺,面向未來的漢語盲文升級可以駛入快車道。

作為關鍵性基礎資源,盲文語料庫的建設將極大地助力盲文信息化,將為盲文信息化的研究提供高質量訓練數(shù)據(jù)和測試數(shù)據(jù),可以促進面向盲文的語言科技的進步,讓盲人有更多獲得信息的渠道、溝通方式,分享社會科技進步成果。盲文語料庫能夠很好地服務于盲文教學,提升盲文出版的規(guī)范化水平,為盲文詞典編纂、盲文教材編寫服務。盲文語料庫可以引領盲文研究從抽象轉向實際使用,這將有力提升我國盲文基礎研究的水平,并且可以占領國際盲文研究的制高點。

本文受到了中國殘疾人聯(lián)合會領導的高度重視。

4.《基于盲文語料庫的現(xiàn)行盲文標調研究新進展》(論文)

由于盲文研究難度大,加之我國盲文研究力量薄弱,漢語盲文在很多領域缺乏實證性基礎數(shù)據(jù),最迫切需要的是盲文出版物標調的實證數(shù)據(jù)。文獻中唯一能夠找到的數(shù)據(jù)是“所有出版物中平均大約只有5%的音節(jié)標了調”,找不到得出這個數(shù)據(jù)的統(tǒng)計樣本、方法、過程。這個數(shù)據(jù)的科學性不得而知。沒有盲文語料庫,這成了無法驗證的數(shù)據(jù)。幾十年來,我國盲文研究領域一直渴望現(xiàn)行盲文出版物標調率的實證數(shù)據(jù)。這是現(xiàn)行盲文標調研究的基礎,是隱性標調研究、修訂標調規(guī)則、制定國家通用盲文標準的基礎。沒有科學的基礎數(shù)據(jù),標調問題的其他研究就成了空中樓閣。

鑒于本次較大規(guī)模實證研究結果的平均標調率為11.35%,與以往結果差異很大。因此,有必要重新評估盲生的猜謎問題,可以嘗試用本研究成果解釋盲校教師、學生對現(xiàn)行盲文猜謎現(xiàn)象的觀點與專家迥異的原因;趯嵶C標調數(shù)據(jù),展望未來現(xiàn)行盲文標調規(guī)則修訂,標調率上浮空間比原先的估計要大得多,篇幅增加的幅度小。未來國家通用盲文標準標調率的上升,對盲校師生的沖擊比原先估計的更小,新舊銜接的跨度更小,更容易適應和接受。

由于盲文出版物的特殊性,傳統(tǒng)的人工方式難以對現(xiàn)行盲文出版物標調進行大規(guī)模的實證統(tǒng)計。正在建設的漢語盲文語料庫發(fā)揮了重要作用,新世紀以來的盲文語料已經(jīng)有足夠的代表性,能夠提供大量的第一手計算機統(tǒng)計數(shù)據(jù),為現(xiàn)行盲文標調實證研究提供了可能。這是我國首次以語料庫為基礎的盲文實證研究,有盲文專家感慨盲文語料庫:“牛刀小試,大顯威力”。 

(責編:李葉)
长顺县| 乐东| 会昌县| 克什克腾旗| 建德市| 温州市| 星座| 安图县| 淄博市| 贵港市| 华亭县| 青岛市| 开原市| 合水县| 余江县| 凌源市| 雷州市| 高台县| 静安区| 西吉县| 壶关县| 新绛县| 陵川县| 栾城县| 香河县| 巴塘县| 上饶市| 新民市| 嘉峪关市| 崇信县| 北安市| 博客| 平罗县| 翼城县| 仪征市| 达拉特旗| 迁西县| 汉寿县| 耒阳市| 临澧县|