基于本體演化和事件結(jié)構(gòu)的語(yǔ)義網(wǎng)模型研究
為國(guó)家網(wǎng)絡(luò)語(yǔ)言文字信息管理獻(xiàn)策建言:
設(shè)立網(wǎng)絡(luò)語(yǔ)言與信息監(jiān)管項(xiàng)目和基地,培養(yǎng)一支有語(yǔ)言研究能力和處理技術(shù)的忠于黨、忠于國(guó)家、忠于人民的網(wǎng)防軍
由武漢大學(xué)蕭國(guó)政、姬東鴻為首席專家的國(guó)家哲學(xué)社會(huì)科學(xué)基金重大招標(biāo)項(xiàng)目《基于本體演化和事件結(jié)構(gòu)的語(yǔ)義網(wǎng)模型研究》(項(xiàng)目批準(zhǔn)號(hào):11&ZD189)始終堅(jiān)持學(xué)術(shù)探索、技術(shù)基礎(chǔ)和應(yīng)用導(dǎo)向,積極推進(jìn)成果轉(zhuǎn)化和使用,不斷提高網(wǎng)絡(luò)生活的質(zhì)量和水平,為創(chuàng)立網(wǎng)絡(luò)中國(guó)文化新面貌貢獻(xiàn)力量。
一
近年來(lái),在網(wǎng)絡(luò)語(yǔ)言處理中,發(fā)現(xiàn)用非文字符號(hào)(含空白)代替漢字“敏感詞”的現(xiàn)象甚多,特別是在文學(xué)作品中,給網(wǎng)絡(luò)作品的發(fā)展、網(wǎng)絡(luò)界面面貌和受眾文化生活帶來(lái)不必要和可以不發(fā)生的非正面影響(為什么不必要和可克服,見(jiàn)后),也給一些境內(nèi)外敵對(duì)勢(shì)力和對(duì)網(wǎng)絡(luò)健康管理不理解的受眾,提供了一些不必要的攻擊理由和煽動(dòng)話題。上個(gè)月,由子課題負(fù)責(zé)人吳鴻緲教授牽頭,項(xiàng)目首席專家蕭國(guó)政教授、姬東鴻教授等參與,通過(guò)武漢大學(xué)向上級(jí)有關(guān)部門呈送了一份關(guān)于文學(xué)網(wǎng)站小說(shuō)文本敏感詞管理辦法的報(bào)告,提請(qǐng)領(lǐng)導(dǎo)和有關(guān)部門關(guān)注,提出了幫助國(guó)家用技術(shù)和相關(guān)策略,改善甚至克服該問(wèn)題的智庫(kù)建議。該智庫(kù)性報(bào)告和建議,我們認(rèn)為事關(guān)國(guó)家安全、社會(huì)發(fā)展、民情導(dǎo)向和我黨威望,現(xiàn)特以簡(jiǎn)報(bào)形式向項(xiàng)目主管部門和領(lǐng)導(dǎo)再次報(bào)告,若認(rèn)為有些合理和可能,也煩請(qǐng)轉(zhuǎn)呈黨和國(guó)家有關(guān)領(lǐng)導(dǎo)。
二
為了“凈化”網(wǎng)絡(luò)語(yǔ)言,我國(guó)當(dāng)前對(duì)網(wǎng)絡(luò)語(yǔ)言文字的管理,采用的是早期簡(jiǎn)單技術(shù)和粗放型策略。
該類技術(shù),在處理敏感詞時(shí),采用的是直接屏蔽的方式。操作上,凡可能屬于不妥或不雅的詞或字段,皆收進(jìn)“應(yīng)刪詞表”,用星號(hào)或空格“替代”。這種處理,臨時(shí)用用無(wú)妨,但長(zhǎng)年累月,后果可以想到。這里,以各類文學(xué)網(wǎng)站中的小說(shuō)文體敏感詞屏蔽的為例,看看這種技術(shù)和處理策略的后果。被屏蔽的敏感詞絕大多數(shù)為政治事件和兩性關(guān)系事件。
從被刪除替換后的網(wǎng)頁(yè)看,兩性關(guān)系類的“敏感詞”主要有以下幾類:①敏感性身體部位的名詞。如“屁股”,“乳房”,“乳頭”,“大腿”,“胴體”;②表示事件行為的動(dòng)詞或動(dòng)名詞。如“操”,“日”,“靠”,“性”,“豐胸”,“意淫”,“誘惑”,“嫖娼”,“撫摸”,“脫光”,“上床”,“性愛(ài)”;③與事件有關(guān)的其他名詞。如“情欲”,“激情”,“欲望”,“曖昧”,“春夢(mèng)”,“初夜”,“高潮”,“性幻想”,“性感”。
如“日”有一個(gè)方言義項(xiàng)同“操”,結(jié)果含有“日”的字段或詞,“日”均被星號(hào)代替,如:抗 *、每*、*頭、往 *、* 后、* 歷、整*里、**夜夜、狗*的、*本人等;又如含“性”字的字段用星號(hào)替換后:人 *、* 命、耐 *、同 *、索 *、黨 *、間歇*、革命*等。
這種用星號(hào)替換的現(xiàn)象又被稱為“打碼”,還被部分網(wǎng)民和寫者戲稱為“被和諧了”。為了避免被打碼,寫手們主要采用了以下六種手段進(jìn)行應(yīng)對(duì),形成了漢字網(wǎng)絡(luò)文本非規(guī)范書寫的六種表達(dá):(1)拆分原字,分字輸入(胴體 → 月同體);(2)形近字代替(日本 → 曰本);(3)音近字代替(大陸→大6);(4)保留原字,中間添加分隔符(對(duì)付“詞表刪除技術(shù)”,如:親熱 → 親!熱),(5)部分拼音化(胸膛 → xiong膛),(6)空格(親熱→親 熱)。
直接屏蔽關(guān)鍵字的粗放式技術(shù)手段,不僅看不到語(yǔ)義技術(shù)的應(yīng)用,也顯得對(duì)文字作品和受眾不夠尊重。統(tǒng)計(jì)小說(shuō)《弄潮》發(fā)現(xiàn),“性”字被屏蔽340次,但僅有三處與兩性關(guān)系類事件有關(guān);“日”字被屏蔽285次,無(wú)一處與兩性關(guān)系類事件有關(guān)。一些成語(yǔ)和慣用語(yǔ)也變得讓人啼笑皆非,如“*[靠]山吃山*水吃水、”“來(lái)*[日]方長(zhǎng)”、“十有**[八九]”、“天下事不如意者十常**[八九]”。在政治敏感詞方面,為避“國(guó)軍”,“某國(guó)軍隊(duì)”變成“某**隊(duì)”;“臺(tái)獨(dú)”被屏蔽后,如“某電視臺(tái)獨(dú)家播報(bào)”變成“某某電視**家播報(bào)”。
外事無(wú)小事,其實(shí)代表國(guó)家的語(yǔ)言行為更是涉及黨和國(guó)家的形象,關(guān)乎人民特別是年輕一代文化思想修養(yǎng),可以說(shuō)是影響千秋萬(wàn)代的事,必須高度重視。語(yǔ)言無(wú)小事,網(wǎng)絡(luò)(含手機(jī))讀物,事關(guān)黨、國(guó)家、人民和民族現(xiàn)實(shí)安全和文化未來(lái),不能簡(jiǎn)單從事,需認(rèn)真研究,必須投入經(jīng)費(fèi)金額力量,進(jìn)行有針對(duì)性的語(yǔ)義、技術(shù)、政策、策略及戰(zhàn)略研究,彰顯我們黨對(duì)國(guó)家、對(duì)人民、對(duì)歷史最具高度責(zé)任感的政治特色和光榮傳統(tǒng),同時(shí)提高我國(guó)語(yǔ)言學(xué)界、技術(shù)處理界的語(yǔ)言研究水平和技術(shù)處理水平。
三
為此,我們建議:在國(guó)家網(wǎng)絡(luò)信息安全領(lǐng)導(dǎo)小組領(lǐng)導(dǎo)下,通過(guò)社會(huì)科學(xué)基金、自然科學(xué)基金、教育部等,可把相關(guān)的工作和任務(wù),通過(guò)國(guó)家交叉學(xué)科項(xiàng)目招標(biāo)方式招標(biāo),或?qū)⒋祟惞ぷ髦苯哟虬头猪?xiàng)委托給政治責(zé)任感強(qiáng)、語(yǔ)言和信息處理技術(shù)到位的重大項(xiàng)目組、學(xué)校、機(jī)關(guān)、學(xué)術(shù)團(tuán)體和有關(guān)基地,與他們簽訂責(zé)任書,定期檢查、考核,優(yōu)勝劣汰,讓他們?cè)趪?guó)家有關(guān)部門領(lǐng)導(dǎo)、管理和監(jiān)護(hù)下,成為我黨、我國(guó)網(wǎng)絡(luò)空間的一支新型“網(wǎng)防”軍。
如果國(guó)家和有關(guān)領(lǐng)導(dǎo)部門認(rèn)為我們的建議可行,有需要有人先行先試,我們項(xiàng)目組是交叉學(xué)科團(tuán)隊(duì),有上好的語(yǔ)言研究基礎(chǔ)、網(wǎng)絡(luò)技術(shù)基礎(chǔ)和項(xiàng)目研究成果,我們項(xiàng)目組和項(xiàng)目組所在的“武漢大學(xué)湖北語(yǔ)言與智能信息處理重點(diǎn)研究基地”,項(xiàng)目負(fù)責(zé)人所主持的“中國(guó)語(yǔ)文現(xiàn)代化學(xué)會(huì)語(yǔ)言與智能信息研究會(huì)”,愿意參與先行先試,并保證在完成好現(xiàn)有重大項(xiàng)目研究的同時(shí),為國(guó)家網(wǎng)絡(luò)語(yǔ)言信息的安全監(jiān)管工作和履行國(guó)家智庫(kù)使命,做出我們應(yīng)有的貢獻(xiàn)。
在技術(shù)上,我們今天已可以做到精準(zhǔn)剔除,最大程度地保護(hù)漢語(yǔ)的健康肌體。試舉兩例:一,從簡(jiǎn)單的“關(guān)鍵詞刪除法”往前走一小步,搜索該詞前數(shù)字或/和后數(shù)字(或詞),建一個(gè)輔助性的“反刪除詞表”,如“性”,凡遇“人性、性命、耐性、索性、黨性、間歇性、革命性”(此表可根據(jù)出現(xiàn)的失誤不斷擴(kuò)展),則取消刪除;用此法來(lái)避免對(duì)成語(yǔ)、俗語(yǔ)的破壞。二,更復(fù)雜一點(diǎn),以大數(shù)據(jù)為基礎(chǔ)結(jié)合智能學(xué)習(xí)和深度學(xué)習(xí),對(duì)敏感詞進(jìn)行精確過(guò)濾自動(dòng)攔截,如收集與相關(guān)詞語(yǔ)鄰近的上下文詞語(yǔ),標(biāo)出其頻率進(jìn)行排序,結(jié)合貝葉斯網(wǎng)絡(luò)和隱馬爾可夫模型,加上適當(dāng)?shù)尼槍?duì)性算法,便可精準(zhǔn)判斷“屁股”一詞是否出現(xiàn)在帶有色情意味的上下文中。爾后,根據(jù)需要可在此基礎(chǔ)上,再一步步往前走。
(課題組供稿)