舊版網(wǎng)站入口

站內(nèi)搜索

面向網(wǎng)絡文本的多視角語義分析方法、語言知識庫及平臺建設研究中期檢測報告

2016年11月29日15:05來源:全國哲學社會科學工作辦公室

一、研究進展情況

① 研究計劃總體執(zhí)行情況及各子課題進展情況

2014年7月——2016年7月,是本項目推進的關(guān)鍵時期。項目組按照項目的計劃順利推進,開展研究。

在2年的時間里,總體執(zhí)行情況如下:完善了知識庫的構(gòu)建,真對名詞物性角色,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,在完成規(guī)范的制定的基礎上,開展了規(guī);募庸すぷ;進一步設計了和實現(xiàn)了多個數(shù)據(jù)加工眾包平臺,包括指代關(guān)系標注,句間關(guān)系標注和名詞物性角色的填寫;在多視角語義分析方面也取得了一系列的成果,包括縮略語識別、實體關(guān)系分類與實體鏈接分析、也開展了不規(guī)范文本的語義分析和校對研究的工作。

在2年的時間里,我們已經(jīng)發(fā)表學術(shù)論文21篇,包括發(fā)表于計算語言學領(lǐng)域和人工智能領(lǐng)域的頂級國際會議。此外,還申請專利3項,申請軟件著作權(quán)3項。圓滿完成了相應時期的任務。

下面分別介紹各子課題的進展情況。

子課題1:基于生成詞庫理論和論元結(jié)構(gòu)理論的語義知識體系研究

子課題針對常用的名詞詞條,按照設計的知識庫結(jié)構(gòu)進行了知識項的填寫,共達一百多萬字。每個詞條的知識分三個部分:第一部分是對詞條百科知識的說明,第二部分是基于生成詞庫理論,對詞條物性結(jié)構(gòu)方面的描述,共包括施成、功用、構(gòu)成、形式、處置、處置和評價等九種角色;第三部分是根據(jù)實際語料,對這些名詞的實際句法配位做了窮盡性的例句展示。這樣的知識庫,不僅有利于中文信息處理中的信息抽取和信息檢索工作,也可以作為一種語法學習詞典,供本族人和外國留學生學習和查閱使用。

子課題有三位研究生分別圍繞現(xiàn)代漢語雙賓結(jié)構(gòu)、現(xiàn)代漢語旁格賓語結(jié)構(gòu)和現(xiàn)代漢語名詞謂語句等具體語法現(xiàn)象,利用生成詞庫論的物性結(jié)構(gòu)理論完成了自己的碩士學位論文。相關(guān)論文也在投稿發(fā)表之中。

在這2年時間里,子課題組在核心期刊上發(fā)表相關(guān)論文4篇。

子課題2:網(wǎng)絡文本的多級加工與語言知識挖掘研究

在近兩年,子課題主要圍繞以下四個方面開展了研究:

1)制定了多視圖的漢語樹庫標注規(guī)范,在人民日報、微博語料上標注了較大規(guī)模的漢語樹庫

2)制定漢語句際關(guān)系的標注體系,針對漢語特點提出了解決方案,在人民日報3個月語料上標注了所有的句際關(guān)系。

3)對網(wǎng)絡語言的處理與挖掘。在詞語層面,探討了情感極性詞的自動挖掘與判定方法;在句子層面,對于社區(qū)問答中的多小句復雜問句的分割與處理進行了研究。

4)其他相關(guān)研究。研究了漢語開放領(lǐng)域的信息抽取方法,提出了基于依存的詞語embedding計算方法及其在類比計算中的應用。

子課題3:基于群體智慧的知識資源加工技術(shù)及眾包平臺研究

為便于語料和知識加工,子課題組在近兩年內(nèi)進一步完善并擴展了眾包平臺的功能,主要研究如下:

1)進一步完善了眾包平臺的一般性框架構(gòu)建,包括加工結(jié)果的展示模塊,語料(知識)加工模塊,候選答案推薦模塊。

2)進一步完善了加工質(zhì)量控制模塊,包括參與者行為跟蹤記錄模塊。通過日志形式,動態(tài)記錄用戶的行為軌跡。

3)在原有指代消解的基礎上,進一步實現(xiàn)了句間關(guān)系加工眾包平臺功能,在實際標注過程中發(fā)揮了重要的作用。

4)設計實現(xiàn)了名詞基本物性角色標注的眾包平臺,含有自動標注,答案推薦,錯誤校正等主要功能。

子課題組已針對平臺的設計申請并獲批了2項軟件著作權(quán)。

子課題4:知識與統(tǒng)計相結(jié)合的多視角文本語義分析技術(shù)研究

網(wǎng)絡文本的語義分析技術(shù)是不規(guī)范語言分析的重要內(nèi)容,在過去的2年里,子課題主要開展了如下研究:

1)進一步研究了漢語縮略語問題?s略語是一種非規(guī)范的語言表示,也是網(wǎng)絡語言的主要形式之一。子課題重點研究了縮略語的分析和挖掘方法。

2)研究了實體關(guān)系的抽取與分類、實體挖掘與實體鏈接等問題。實體語義是不同于詞義的一種語義,這種語義直接與現(xiàn)實進行對接。在網(wǎng)絡語言中,實體的出現(xiàn)十分頻繁。為此,子課題重點研究了實體關(guān)系發(fā)現(xiàn)、實體關(guān)系分類、實體挖掘和實體鏈接等問題。

3)研究并設計了基于網(wǎng)絡社區(qū)的問答系統(tǒng)。像百度知道之類的社區(qū)問答是互聯(lián)網(wǎng)中的一種典型服務。社區(qū)問答中積累了大量的問題-答案對,其中,很多問題-答案對可能會被反復使用。充分利用這類資源為用戶提供再次服務或再次類似服務具體有特別重要的意義。子課題對此進行了深入研究。

4)研究了針對文本表達不規(guī)范的分析問題。表達的不規(guī)范和用語的臨時性是網(wǎng)絡文本的主要特點,子課題就網(wǎng)絡文本中的不規(guī)范性,研究了文本校對方法。

子課題組在這2年的時間里,取得了一系列的研究成果,申請專利3項,軟件著作權(quán)1項,發(fā)表論文8篇。

②調(diào)查研究及學術(shù)交流情況(調(diào)研數(shù)據(jù)整理運用、文獻資料收集整理、學術(shù)會議、學術(shù)交流、國際合作等)

本項目開始于2013年1月,在2014年6月之前主要是項目的調(diào)研,2014年6月之后的2年時間里,調(diào)研不是本項目的主要任務,但仍然會根據(jù)任務需要開展一些必要的調(diào)研,包括資料的收集,數(shù)據(jù)的整理等。這一階段,以任務的推進為主,包括上述的研究。在這一時期,項目組參加了一系列的學術(shù)活動。具體而言,我們開展的調(diào)研和學術(shù)交流情況如下:

(1)進一步開展了數(shù)據(jù)收集和分析:主要包括,大規(guī)模命名實體數(shù)據(jù)的采集,為實體的挖掘和實體關(guān)系、屬性知識的抽取做了準備;借助于搜索引擎,收集了3種類型的社區(qū)問答數(shù)據(jù),包括天氣問答,航空問答,快遞問答。這一數(shù)據(jù)為本項目開展社區(qū)問答的研究打下了良好的基礎。此外,還就餐飲行業(yè)收集了一定規(guī)模的會話數(shù)據(jù)。

(2)進一步查閱大量的文獻資料。深度學習和問答會話是當前自然語言處理研究的熱點,本項目結(jié)合任務要求,查閱了大量相關(guān)的文獻和資料,包括相關(guān)的培訓講義,獲得的相關(guān)知識在本項目的開展中發(fā)揮了重要作用,形成了多個成果。

(3)參加了多個學術(shù)會議。除了項目各子課題進行討論之外,項目組成員參加了一系列的學術(shù)會議,包括2014年8月在都愛爾蘭柏林舉辦的自然語言處理高水平學術(shù)會議COLING-2014,2014年10月在卡塔爾多哈舉辦的高水平學術(shù)會議EMNLP-2014,2014年11月在武漢舉辦的全國計算語言學會議CCL-2014,2014年12月在深圳舉辦的NLPCC-2014中文計算會議。此外,2015年分別參加在延吉舉辦的少數(shù)民族語言處理會議,本項目負責人王厚峰還應邀作特邀報告。2015年還應哈爾濱工業(yè)大學(深圳研究生院)邀請參加學術(shù)討論,受邀到廣東外語外貿(mào)大學講座等;2015年還參加知識圖譜、CCL-2015, NLPCC-2015等多個學術(shù)會議。2016年7月,參加在紐約舉辦的人工智能頂級學術(shù)會議IJCAI-2016。其間,我們就目前正在開展的工作分別同與會人員進行了討論。

③成果宣傳推介情況(成果發(fā)布會、《工作簡報》報送情況、國家社科基金專刊投稿及采用情況等)

本項目的成果推介形式主要是學術(shù)報告,此外,還利用特邀報告重點介紹項目的研究成果,如,在少數(shù)民族語言信息處理的學術(shù)會議和在廣東外語外貿(mào)大學的邀請報告。

二、研究成果情況 

①代表性成果簡介

2014年6月以來,我們繼續(xù)按照項目任務開展研究,取得了一系列的成果,下面僅介紹5項代表性的成果。

1)知識庫的構(gòu)建

語言知識庫建設是本項目的基礎,也是語義分析的關(guān)鍵。本項目按照任務要求,進一步按照任務書要求工作。進行了知識的分類,完成一百多萬字的填寫工作。如下是我們填寫的一個詞條的例子:

白酒 báijiǔ〈名詞,中性〉用高粱、玉米、甘薯等糧食或某些果品發(fā)酵、蒸餾制成的酒,沒有顏色,含酒精量較高,也叫燒酒、白干兒。

〔1〕物性角色

形式FOR:一種液體食物;

構(gòu)成CON:由淀粉或糖質(zhì)原料制成酒醅或發(fā)酵醪經(jīng)蒸餾而得,用熟糧食和菌種混合培養(yǎng),制成曲后,再和糧食混合同時進行糖化和發(fā)酵制成糧食酒、再蒸餾。根據(jù)香型,可以分為醬香型、濃香型、清香型、米香型等。

單位UNI:不定:點、些;名量:杯、瓶、壺、碗、口、盅,等等;類屬:種;

評價EVA:中檔、優(yōu)質(zhì)、劣質(zhì)、普通、名優(yōu)、假冒、新型,等等;

施成AGE:加工、生產(chǎn)、勾兌、釀造、兌制,等等;

功用TEL:喝、飲用、食用,等等;

處置HAN:倒、命名、購買、送、銷售、摻、裝、賣、進口,等等;

〔2〕句法格式

S1:CON +_

如:清香型~|米香型~|濃香型~|醬香型~

S2:Num + UNI +_

如:一杯~|一碗~|一種~|一些~|一點~|一口~|一瓶~|一壺~|一種~|一盅~

S3:EVA +(的+)_

如:高檔~|中檔~|低檔~|劣質(zhì)~|名優(yōu)~|假冒~|新型~

S4:AGE +_

如:加工~|生產(chǎn)~|勾兌~|釀造~|兌制~

S5:TEL +_

如:喝~|食用~|飲用~

S6:HAN +_

如:倒~|命名~|購買~|送~|賣~|銷售~|進口~|摻~|裝~

圖 1 依存視圖示例

2) 構(gòu)建了大規(guī)模、多領(lǐng)域、多視圖句法樹庫

在句法樹庫構(gòu)建方面已取得很大進展,相關(guān)論文發(fā)表于2014年8月在愛爾蘭都柏林召開的COLING-2014上和中文信息學報2015年第3期和第5期,具體內(nèi)容包括:

圖 2 短語結(jié)構(gòu)語法視圖示例

(1)設計了一套依存句法標注體系及標注規(guī)范。部分依存關(guān)系類型繼承自哈工大依存樹庫,新增的依存關(guān)系類型包括話題、強調(diào)、間接賓語、行為賓語、數(shù)量補語、共享并列等;

(2)設計了由依存視圖向短語結(jié)構(gòu)視圖轉(zhuǎn)換的算法并進行了程序?qū)崿F(xiàn),開發(fā)了一套支持依存和短語結(jié)構(gòu)兩個視圖的標注工具。圖 1和圖 2分別是句子“根據(jù)資源情況,各地建立和完善了一大批農(nóng)副產(chǎn)品市場,以組織和引導農(nóng)戶進行生產(chǎn)。”的依存視圖和短語結(jié)構(gòu)語法視圖,后者根據(jù)所設計的算法自動生成。

(3)已完成560萬字句法樹庫的標注,其中500萬字為人民日報語料,60萬字為微博語料(基于NLPCC2012微博情感評測語料)。其中1.4 萬句新聞語料(人民日報)已可免費共享。

(4)基于這一系列樹庫,通過句法分析實驗考察質(zhì)量、規(guī)模、領(lǐng)域差異等因素對中文依存分析的影響,實驗結(jié)果表明:(a)樹庫規(guī)模和質(zhì)量均與句法分析精度成正相關(guān)關(guān)系,質(zhì)量應先于規(guī)模因素被優(yōu)先考慮;(b)通用樹庫和領(lǐng)域樹庫之間的差異程度與前者對后者的替代性成相關(guān)關(guān)系;(c)兩種樹庫混合使用的效果同樣與領(lǐng)域差異有關(guān)。

3) 設計了漢語語病分析模型

在語言文本中,語病的分析和識別是一個非常重要的基礎性問題,在網(wǎng)絡語言中,該問題尤為突出。為此,本項目開展了針對性的研究。

本項目提出了基于深度神經(jīng)網(wǎng)絡與多標記分類的病句檢測方法(參圖3)。

基本思想是通過從句子中提取特征,將句子變?yōu)樘卣飨蛄;再將特征向量輸入到深度神?jīng)網(wǎng)絡模型中,獲得深層次特征表示;最后針對于多標記分類的神經(jīng)網(wǎng)絡輸出,獲得最終多標記分類結(jié)果,從而準確定位句子究竟包含哪些錯誤。實現(xiàn)了將句子的特征表示升級到基于神經(jīng)網(wǎng)絡的隱藏層表示中,通過多標記的方法輸出可能的語病,從而完成病句的檢測?梢宰R別句子中的多種語病,避免了人工選擇特征,同時也能確保多種語病預測的準確度。

我們提出的方法已經(jīng)申請專利。

4) 提出了一種問題理解的方法

本項目還研究了一種問答系統(tǒng)中問句理解的方法。主要思想是基于循環(huán)神經(jīng)網(wǎng)絡方法,將問句理解中意圖識別和槽填充這兩個任務及其關(guān)聯(lián)性進行聯(lián)合學習,基于循環(huán)神經(jīng)網(wǎng)絡來聯(lián)合建模一同解決意圖識別和槽填充,利用這兩個任務之間的關(guān)聯(lián)性更好地實現(xiàn)兩個任務。在不同的數(shù)據(jù)集上測試表明,本方法能夠提高兩個任務的準確率,可以用于問答系統(tǒng)中的問句理解。圖4是基本構(gòu)架圖。

圖4. 問答系統(tǒng)的問題理解框架

上述成果已申請發(fā)明專利。

5) 實現(xiàn)了名詞物性角色的在線標注眾包平臺

名詞物性角色在線標注系統(tǒng)主要提供了句子的自動篩選和預標功能。從生語料(LDC Chinese Gigaword)中,只抽取含目標名詞和一個待標動詞的句子,降低動詞的搭配歧義。

在線標注系統(tǒng)的基本功能框架如下圖5所示。

圖5. 在線標注平臺的實現(xiàn)框架

其中,句子篩選模塊用于抽取含目標名詞和一個待標動詞的句子。CNN神經(jīng)網(wǎng)絡模型:提供了相應名詞的動詞物性角色推薦。

在線標注系統(tǒng)為參與者提供了便捷的標注界面,并保存標注結(jié)果和實時的標注日志。

上述成果已經(jīng)申請軟件著作權(quán)保護。

①階段性成果清單

論文:

1)王璐璐、袁毓林《述結(jié)式與“把”字句的構(gòu)式意義互動研究》,《語言教學與研究》,2016年第3期。

2)王璐璐、孫薇薇、袁毓林《“把”字句的自動釋義與句式變換研究》,《計算機工程與應用》,2015年第19期。

3)周韌《兼類說反思》,《語言科學》2015年第5期。

4)宋作艷、趙青青、亢世勇《漢語復合名詞語義信息標注詞庫:基于生成詞庫理論》(《中文信息學報》2015年第3期)

5)Likun Qiu, Yue Zhang, Peng Jin, Houfeng Wang, Multi-view Chinese Treebanking. Proceedings of  COLING 2014, 2014-08-23

6)Likun Qiu and Yue Zhang, ZORE: A Syntax-based System for Chinese Open Relation Extraction. Proceedings of  EMNLP 2014. 2014-10-25

7) Likun Qiu, Yue Zhang, Yalan Lu. Syntactic Dependencies and DistributedWord Representations for Chinese Analogy Detection and Mining. Proceedings of  EMNLP 2015,2015-09-21

8)邱立坤,金澎,王厚峰,基于依存語法構(gòu)建多視圖漢語樹庫,中文信息學報,2015年第3期

9)邱立坤、史林林、王厚峰,多領(lǐng)域中文依存樹庫構(gòu)建與影響統(tǒng)計句法分析因素之分析,中文信息學報,2015年第5期

10)吳云芳,徐藝峰,王愷然,漢語篇章級小句關(guān)系的標注體系,中文信息學報,2015年第3期

11)Wu Yunfanf, Wan Fuqiang, Xu Yifeng,  Lv Xueqiang,A New Ranking Method for Chinese Discourse Tree Building,北京大學學報(自然科學版),2016年2月

12)Fei Wang, Yunfang Wu,Sentiment-Bearing New Words Mining: Exploiting Emoticons and Latent Polarities,Proceedings of  CICLing 2015.

13)Yixiu Wang, Yunfang Wu, Xueqiang Lv, Multi-sentence Question Segmentation and Compression for Question Answering. NLPCC2015, LNCS9362(Springer)

14)Minghua Zhang, Yunfang Wu, ICL00 at SemEval-2016 Task 3: Translation-Based Method for CQA. Proceedings of SemEval-2016.

15) 宋洋,王厚峰,基于馬爾可夫邏輯網(wǎng)絡的中文零指代消解,計算機研究與發(fā)展,2015(09),2114-2122

16) 宋洋,王厚峰,共指消解研究方法綜述,中文信息學報,2015(1),1-12

17) 陳晨,王厚峰,中文跨文本人名同名同指消解研究,江西師范大學學報:自然科學版, 2015, 02期(2),111-116

18)RuiCai, Houfeng Wang, and Junhao Zhang. Learning Entity Representation for NamedEntity Disambiguation. CCL&NLP-NABD 2015, LNAI 9427(Springer), 267-278

19)RuiCai, Miaohong Chen, and Houfeng Wang. Nonparametric Symmetric CorrespondenceTopic Models for Multilingual Text Analysis. NLPCC2015, LNCS9362(Springer), 270-281

20)Qing Zhang, Houfeng Wang. Not All Links Are Created Equal: An Adaptive Embedding Approach for Social Personalized Ranking. SIGIR-2016, July 17-21, 2016, Pisa, Italy

21)Qing Zhang, Houfeng Wang. Collaborative Filtering with Generalized Laplacian Constraint via Overlapping Decomposition, 2016, 2329-2335

專利:

1) 一種基于深度神經(jīng)網(wǎng)絡與多標記分類的病句檢測方法, 申請?zhí)枺?01510408379.4

2)一種基于深度學習的會話情感自動分析方法,申請?zhí)枺?01510731781.6

3)一種問答系統(tǒng)中的問句理解方法,申請?zhí)枺?01610512191.9

軟件著作權(quán):

1)GLEANER眾包平臺系統(tǒng)V1.0, 登記號:2015SR137669

2)領(lǐng)域適應的漢語分詞系統(tǒng)V1.0,登記號:2015SR161286

3)漢語名詞物性知識在線加工系統(tǒng)V1.0,登記號:2016SR172188

課題組供稿

(責編:沈王一)
湘阴县| 固安县| 北京市| 元氏县| 高雄市| 雅安市| 祁连县| 罗山县| 辽中县| 繁峙县| 甘肃省| 汝城县| 辰溪县| 黎川县| 浦县| 台南县| 凌云县| 通城县| 屏边| 上饶县| 宜良县| 玛沁县| 邵阳县| 霍邱县| 格尔木市| 简阳市| 即墨市| 石首市| 福海县| 闽侯县| 张家界市| 博乐市| 龙口市| 阿尔山市| 文成县| 游戏| 莆田市| 师宗县| 乌拉特后旗| 鄱阳县|