一、 研究進展情況
武漢大學蕭國政、姬東鴻為首席專家的國家社會科學基金重大招標項目《基于本體演化和事件結構的語義網模型研究》(項目批準號:11&ZD189),2012年2月15日正式開題啟動,2013年8月提交項目中期檢查表。項目經費總額80萬,2012年5月到賬經費68萬。
本課題子題多,參研單位和學科多,需攻克的難點密集,根據開題專家組和管理部門的建議,專門成立了項目管理組,項目嚴格按照國家對哲學社科基金重大項目的管理要求,建立了實施和管理方案,細化了任務分工和任務要求,明確了任務時間節(jié)點,每周、每月、每季度都有不同課題組及成員參加的學術研討會和匯報交流會。目前,項目研究歷時已三年半,前面的工作已經做過匯報,現(xiàn)將2013年7月—2015年6月(下面簡稱“現(xiàn)階段”或目前)的項目研究情況匯報如下。
一、項目開展情況
(一)研究計劃總體執(zhí)行情況及各子課題進展情況
子課題一,為面向事件的本體結構資源建設,旨在建立涵蓋實體、屬性、性質、事件及其上下位關系的基礎本體結構,建立涵蓋事件和事件鏈的語義標注資源,為文本的深度語義挖掘、上下文理解和語義查詢及推理奠定基礎。
本體結構方面,現(xiàn)階段我們用事件語義描寫模板完成了電子商務領域的事件語義描寫模板庫,以及10余萬字的著作。其創(chuàng)新點是:1)從事件本身的語義特征出發(fā)來理解和定義事件,對事件進行了新的內涵分類和結構分類,以方便提取事件的結構要素;2)提取了事件的六個一級基本語義要素和二十五個二級語義要素,并以這些語義要素為基礎,定義了事件六元組通用描寫模板。
事件資源方面,在總結和研究多學科相關成果的基礎上,針對語言信息處理的需要,構建了適用于語言信息處理的事件理論系統(tǒng),并將事件分析和結構分析融合起來,F(xiàn)階段我們集中對突發(fā)事件和醫(yī)療事件進行標注,定義了事件標注的基本框架,并形成一定規(guī)模的數(shù)據資源。其創(chuàng)新點在于:1)在事件標注中引入了結構性語義單元。如“發(fā)生……事故”和“正在……進行中”它們可分別作為一個結構性事件觸發(fā)詞和一個結構性時態(tài)整體標注出來。2)將事件標注方法引入真實的藥品說明書和用藥指南中進行標注。
目前我們確定了事件標注的具體步驟,包括語料的選擇、語料的預處理和事件標注,并對數(shù)據進行了人工標注。我們將突發(fā)事件分為:原因類事件、核心類事件、結果類事件和處置類事件四個類別進行分別標注。每一類事件又有其事件觸發(fā)詞和相關的事件屬性,如:時間、地點、施事、受事、模態(tài)等。醫(yī)療類事件,我們以藥品說明書及用藥指南為基礎數(shù)據進行標注,定義了疾病、癥狀、治療(手段)、藥品、病菌、患者等8個事件實體。不僅標注這些醫(yī)療領域的事件實體,還要標注這些實體間的關系,這種基于“事件”的標注資源在中文領域比較稀缺。
子課題二,為面向事件的語義網表示和推理機制,此課題旨在研究大規(guī)模的事件語義描述及其推理模型和引入統(tǒng)計推理,以支持面向事件的語義查詢和實時自然語言查詢,并從邏輯基礎的角度來驗證這種表示機制的可滿足性和可判定性。目前主要完成了三個方面的研究:①開發(fā)基于規(guī)則的知識圖譜質量評價機制的研究,已經在醫(yī)學知識圖譜質量評價方面取得了一定進展;②進一步細化了基于事件的醫(yī)學指南文本處理的研究,包括將中文抗菌藥醫(yī)學指南文本轉換成相應的可執(zhí)行規(guī)則和利用英文循證指南,細化中文指南的相關工作;③建立了從現(xiàn)有專業(yè)網站自動構建相應領域知識的工具,并針對醫(yī)學類專業(yè)網站進行了驗證,達到了相應的效果。
本子課題在以下方面有所創(chuàng)新:1) 引入了基于規(guī)則的知識圖譜質量評價機制的研究;2)建立了醫(yī)療、消防等專業(yè)領域的中文開放鏈接數(shù)據,豐富了中文開放鏈接數(shù)據庫的內容,并為相關應用奠定基礎。
子課題三,為基于知識發(fā)現(xiàn)的本體演化機制研究,旨在研究在大規(guī)模文本的作用下,基礎本體到領域本體以及領域本體間的演化機制。這方面的主要進展在于:①研究從大規(guī)模語料中自動發(fā)現(xiàn)目標單詞詞義,提出一個基于詞匯鏈的詞義歸納超圖模型;②提出通過語法測試的方法來提高語料標注質量;③自動發(fā)現(xiàn)領域文本中的事件觸發(fā)詞及其論元。
這些工作的創(chuàng)新性在于:1)基于詞匯鏈的方法發(fā)現(xiàn)目標單詞的高階語義關系,以此構建超圖,并根據所構建的超圖滿足“小世界圖”特性發(fā)現(xiàn)詞義;2)利用復雜網絡的辦法發(fā)現(xiàn)新的社團,其中包含事件觸發(fā)詞和可能的論元。
子課題四,為事件語義的自動標注研究,本課題旨在基于人工標注的一定數(shù)量語料實例和概念本體的基礎上,遵照人工標注事件語義規(guī)范,利用機器學習方法,進行事件結構學習和事件關系抽取,為未標注Web頁面自動進行事件語義標注,并在事件語義自動標注軟件的幫助下,獲得更多的標注了事件語義的語料實例,擴展事件本體資源的規(guī)模。目前我們的進展主要在以下幾方面:①我們在已標注中文事件語料上,采用統(tǒng)計與規(guī)則相結合方法,研究了中文事件抽。虎谠贜TCIR RITE任務的語料上,進行了人工事件標注,研究了事件對中文文本蘊涵關系識別的影響;③在爬取的醫(yī)療語料(主要是藥品說明書)上,進行了醫(yī)療實體、醫(yī)療實體關系識別方面的探索。
本子課題的創(chuàng)新之處在于:1)將事件自動標注與醫(yī)療文本信息結合,利用事件語義自動標注方法,對藥物說明書與用藥指南文本進行基于事件語義的計算與理解;2)通過不同的原子事件的抽取方法,研究開放領域原子事件的抽取技術及其與指代消解、詞義學習的關系。
子課題五,為基于事件的語義查詢與推理研究,本項目旨在建立一種基于事件的推理模型,以及一種基于事件推理的語義查詢與推理系統(tǒng)。按照預期目標,已經完成以下研究:①文本推理框架、各模塊(預處理模塊、蘊涵轉換模塊、蘊涵分類模塊)。②完成了基于事件的蘊涵識別模塊。③基于文本蘊涵的問答系統(tǒng)完成。④在評測平臺方面,完成了RTE、NTCIR評測數(shù)據收集分析,并對評測工作現(xiàn)狀進行分析,完成了原型系統(tǒng)設計、錯誤分析和系統(tǒng)改進。在此基礎上,課題成員參與了NTCIR-11組織的的中文文本推理任務,系統(tǒng)效果在參賽隊伍中名列前茅。
本子課題的創(chuàng)新性在于提出了基于事件的蘊涵識別方法,該方法能一定程度刻畫深度語義,能夠識別面向語篇的蘊涵關系,有助于提高語義查詢系統(tǒng)的性能。
二、調查研究及學術交流
項目在已有的基礎上,我們進一步加強了調查研究工作和學術交流。為了幫助和實現(xiàn)項目的研究在國內外學科前沿高水平展開,除了團隊內部的例行討論,我們還注重與國內外著名專家學者的火花碰撞,先后邀請了多位國內外知名教授和語義網領域專家前來講座交流,深入探討語言哲學、語言認知等語言學宏觀問題以及語言信息處理等技術前沿問題。
2013年至今主要調查研究工作如下:
1)收集、閱讀并總結了醫(yī)學事件、事件推理等方面的相關資料;
2)收集、閱讀并總結了事件抽取、事件語義標注以及事件在文本蘊涵、醫(yī)療等應用方面的相關資料;
3)收集、閱讀并總結了文本推理、文本蘊涵等方面的國內外最新資料及文本推理自動識別研究中的事件研究;
4)總結了大量國內外關于事件本體資源構建的資料。
2013年至今主要學術交流如下:
1)組織承辦了第八屆中國語義網及萬維網科學大會(CSWS2014)。本次大會的主題設定為“Big Data and Semantics”,有來自中國、德國、美國、英國、意大利和葡萄牙的120余位專家學者及在校研究生、工業(yè)界人士參與了此次大會。大會還特別邀請了國際著名語義網專家德國Karlsruhe理工學院Rudi Studer教授、清華大學孫茂松教授和東北大學王國仁教授作了關于“語義網中間件及工業(yè)應用”、“知識圖譜”和“移動大數(shù)據”的大會報告。
2)參加了Colling2014和EMNLP2014等計算語言學領域的頂級會議。
3)參加了包括CCL、CSWS在內的計算語言學、語義處理方面的國際學術會議;
4)參加了NTCIR-11 RITE-VAL中文文本蘊涵分類方面國際評測任務,MC子任務的官方評測結果排名第一;
5)參加了新加坡國立大學和清華大學聯(lián)合舉辦的下一代搜索(Next Search)研討會。
6)參加了JIST2014等語義處理方面的國際學術會議。
7)在第8屆中國語義與萬維網科學大會期間,本課題組織和主持了一次“Lexical Semantics”的專門研討會。
三、成果推介及簡報報送情況
自2013年以來成果推介情況
1)在CSWS2014會議期間組織了相應的事件語義與醫(yī)學信息處理?
2)通過中國計算機學會YOCSEF青年論壇組織了一場事件語義與醫(yī)學信息處理方面的專題報告會,取得了較好的效果。
3)在CCL2013和CCL2014計算語言學學術會議期間,就事件語義對中文文本蘊涵關系識別的作用進行了學術交流;
4)在CSWS2014國際學術會議期間,針對新聞原子事件抽取方法、語言現(xiàn)象對中文文本矛盾關系識別的影響、藥品說明書中醫(yī)療關系抽取等方面進行了學術交流;
5)在NTCIR-11國際學術研討會上就RITE-VAL系統(tǒng)所采用的方法及評測結果進行了學術交流;
6)在下一代搜索研討會上就事件語義在媒體搜索方法和精度等作用進行了探討;
7)將事件語義運用到醫(yī)療信息處理方面的宣傳與推廣。
自2013年以來報送簡報共3期。
第六期簡報報告了2013年項目核心資源——事件鏈語料標注系列研討會開展情況,迄今研討會共召開了11次,通過多次的試錯和修正,基本確定了詞匯鏈、NP鏈、事件和事件鏈的確定和標注原則,以及從詞匯鏈到NP鏈、從NP鏈再到事件鏈的整體標注思路,并從可操作性方面比較了從依存語義角度和NP鏈角度進行標注的優(yōu)劣,在操作性上認可了NP鏈角度在客觀性及效率性上的顯著優(yōu)勢。隨著討論的不斷深入,還確定了事件鏈牽出之后其事件結構的描寫方式,即其直接論元只用描寫其中心語,然后在結構之后附加其在詞匯鏈上的修飾語對這個中心語的依存關系。
第七期簡報報告了事件本體構建及事件鏈的標注上的創(chuàng)新及基于事件的語義查詢與推理研究方面的創(chuàng)新。事件本體構建的創(chuàng)新點:1)事件鏈中原子的確定及形成。從語言上講,在一個篇章中,可以通過某詞反復出現(xiàn)來作為識別主干事件的手段。(復現(xiàn)詞往往是指稱詞)因此可形成一條聚合鏈。2)事件本體構建中加入蘊涵信息。在事件本體加入蘊涵信息,就可將一個語篇中相關的謂詞鏈接起來,并推出該謂詞所帶論元。形成一個可推理的復雜網絡,即事件鏈和事件圖的轉化。事件語義查詢與推理方面的創(chuàng)新:1)提出基于事件圖的中文文本蘊涵矛盾識別模型,該模型中包含事件語義特征和圖統(tǒng)計特征。其事件的語義特征可在我們建立的事件本體中查找。這種語義特征是包含語義基元結構的結構樹。2)通過對中文文本矛盾相關的事件語義現(xiàn)象分析,得到事件語義規(guī)則,并引入中文文本矛盾識別模型。3)基于深度學習的文本蘊涵識別。提出一個兩階段的步驟識別蘊涵關系,通過學習文本(T)和假設(H)間的潛在共同語義把T和H結合起來,再在共享語義層的基礎上比較T和H來獲得它們的蘊含關系。
第八期簡報主要報告了整個研究團隊秉持“注重基礎,著力創(chuàng)新”的理念,課題取得了較為豐碩的研究成果,并產生一定的國際影響力。在概念本體建構方面,現(xiàn)已定義了各種結構基元的類型和屬性,包含上下位關系、整體部分關系和同義關系;針對傳統(tǒng)的義素分析法存在的義素集開放、數(shù)量不可控,以及結構缺乏統(tǒng)一的描述框架等缺陷,從詞義系統(tǒng)中萃取一套系統(tǒng)的、意義簡明單一的、數(shù)量有限的詞義成分集,作為詞義基元結構作為對整個詞義系統(tǒng)進行描寫的工具,即詞義的基元結構;基于義類、義核、義征、義用四類基元結構,歸納了基于基元結構描述的詞義結構方程式,對詞的語義結構進行形式化描寫。在事件本體建構及事件鏈的標注方面,提出了同一詞匯鏈,擴展NP及主干事件鏈一系列的抽取過程。從客觀上解決了事件及事件鏈抽取的困難。目前,已依此方法標注新聞語料篇章事件鏈700余篇,發(fā)表博士論文、國際國內會議論文10余篇,部分論文也在國際會議上進行大會報告并得到同行和專家的關注。在資源建設方面,結合資源建設實踐、項目研究和團隊學科背景,從詞位理論探索入手,我們提出了對語言資源類型、性質以及建設的新的思考。我們發(fā)現(xiàn)詞位包含抽象和具體兩類形式,是詞位的第一個位特征:構成特征。詞位的第二個位特征:內部關系特征。即詞位是對變體的抽象,詞目是對詞例的抽象,詞匯詞是對句法詞的抽象。詞位的第三個特征:變體詞義差異容忍特征。即句法詞的意義內涵大于詞匯詞意義內涵,二者是廣義的邏輯上下位關系。詞位變體不同于音位變體,變體之間存在和允許邏輯上的上下義。這種思路從一個獨特的角度分析、解釋了資源如何建設才能達到科學性和智能性。
四、主要問題與改進措施
子課題一存在的主要問題是標注一致性問題和標注量巨大。標注質量是資源建設的核心,沒有良好的質量控制,所標注的資源就不具有規(guī)范性和代表性,也就喪失了機器可操作性的基礎。為了使不同標注者實現(xiàn)標注結果一致性的最大化,我們將進一步加強對標注者的前期培訓和過程培訓,實時控制標注質量,統(tǒng)一標注要求,做到邊標注,邊檢查,確保最終標注成果的質量。
子課題二主要問題是知識圖譜質量成為影響后續(xù)研究的一個重要問題;設計一個能表達豐富事件語義的推理機制在可計算性和時空效率等方面存在困難。我們將知識圖譜質量評價和改進納入課題研究范圍;將事件推理限定于專業(yè)領域進行研究。
子課題四目前面臨的問題是除突發(fā)事件外,其它類事件的標注規(guī)范還沒有確定;已標注事件的語料有限,使用有監(jiān)督學習方法進行事件抽取受到限制; 雖然已經有了將事件擴展至領域語料的想法,但對領域語料的研究還不夠深入。整個課題還需進一步加強成果發(fā)表和出版的工作。改進措施:目前通過討論基本上已經確定了突發(fā)類事件的標注規(guī)范,在后續(xù)的標注工作中爭取進一步完善;在目前已標注事件語料有限的情況下,盡量采用半監(jiān)督或無監(jiān)督方法探索事件抽。灰葬t(yī)療或生物信息領域為突破口,盡量將事件語義模型拓展至專業(yè)領域。
另外,在項目管理上,由于本項目前期人工標注工程量較大,勞務消耗超過預期,因此存在勞務費的支出在一定程度上超出規(guī)定額度的問題。針對上述問題,項目組將加強對項目的集中領導,要求各子課題負責人每周報送工作進展,分級管理,實現(xiàn)對項目開展情況的實時跟蹤,并每月定期組織召開專項研討會,集中討論解決相關問題。(其他改進和完善,可參見下一步研究計劃列表及經費缺口列項)
二、 研究成果情況
1、學術論文:
1)發(fā)表了《中文信息學報》論文2篇:《詞位重構與平行語言資源的再生性建設》《基于事件語義特征的中文文本蘊含識別》
《詞位重構與平行語言資源的再生性建設》:語言資源建設對于語言信息處理或計算機語言學的重要性!对~位重構與平行語言資源的再生性建設》一文結合我們資源建設實踐、項目研究和團隊學科背景,從詞位理論構建入手,提出我們對語言資源類型、性質以及建設新的思考理論和建議,以期活躍思想,推動資源建設發(fā)展,展示語言理論的突破對語言技術和資源建設跨越性發(fā)展的意義。
《基于事件語義特征的中文文本蘊含識別》:提出了基于事件語義特征的中文文本蘊含識別方法。該方法基于事件標注語料生成事件圖,將文本間的蘊含關系轉化為事件圖間的蘊含關系;利用最大公共子圖的事件圖相似度算法計算事件語義特征,與統(tǒng)計特征、詞匯語義特征和句法特征一起使用支持向量機進行分類,得到初步實驗結果,再經過基于事件語義規(guī)則集合的修正處理得到最后的識別結果。實驗結果表明基于事件語義特征的中文文本蘊含識別方法可以更有效地對中文文本蘊含關系進行識別。
2)發(fā)表了一篇EI檢索的論文,《Annotating Principal Event Chain in Chinese Texts》
《Annotating Principal Event Chain in Chinese Texts》認為語篇的銜接不僅包含詞匯銜接,同時也包含事件銜接,這兩者都是語篇理解的重要內容。本文提出一種基于主干事件鏈的語篇銜接標注方法,該主干事件鏈亦跟詞匯銜接(詞匯鏈)密切關聯(lián)。詞匯鏈一方面是提取主干事件鏈的線索,另一方面又是主干事件鏈的組成部分。該方法標注出的語篇主干事件鏈提高了語篇銜接標注的客觀性,而且加強了語篇銜接標注的實用性。
3)在CSWS2014會議期間組織了相應的事件語義與醫(yī)學信息處理?;
通過中國計算機學會YOCSEF青年論壇組織了一場事件語義與醫(yī)學信息處理方面的專題報告會,取得了較好的效果。
4)在《武漢大學學報(理學版)》論文發(fā)表《基于信息單元融合的新聞原子事件抽取》
《基于信息單元融合的新聞原子事件抽取》針對新聞語料,提出了一種基于信息單元融合的原子事件抽取方法。在中文分詞、詞性標注、命名實體識別等自然語言處理技術的基礎上,利用語言規(guī)則將信息單元標識出來并進行融合,達到淺層句法分析的效果,通過原子事件抽取算法將原子事件從經信息單元融合后的語料中抽取出來;谛畔卧诤系脑邮录槿》椒ú粌H對文本長度沒有嚴格限制,并且不受事件類型的約束;實驗結果表明,基于信息單元融合的原子事件抽取方法是有效的。
5)在計算語言學領域國際頂級會議ACL,EMNLP和COLING上發(fā)表論文三篇:
Word Sense Induction Using Lexical Chain based Hypergraph Model(COLING 2014)提出一個基于超圖的詞義歸納模型。首先采用基于詞匯鏈的方法發(fā)現(xiàn)包含目標單詞的上下文實例間的高階語義關系;然后以結點表示上下文實例,超邊表示多實例間高階語義關系構建超圖,其中詞匯鏈被用于發(fā)現(xiàn)超邊;最后根據所構建的超圖滿足“小世界圖”特性,一個基于最大密度超圖譜聚類算法被用于發(fā)現(xiàn)詞義。實驗基于Semeval-2103 WSI任務,與普通圖模型進行比較,其在詞義檢測與詞義評級兩個指標上分別提升了5.6%和6.4%。
Positive Unlabeled Learning for Deceptive Reviews Detection(EMNLP2014)基于少量真實評論和大量的未標注評論,提出一種創(chuàng)新的PU (Positive Unlabeled)學習框架來識別虛假評論。首先,從無標注數(shù)據集中識別出少量可信度較高的負例。其次,通過整合LDA (Latent Dirichlet Allocation)和K-means,分別計算出多個代表性的正例和負例。接著,混合種群性和個體性兩種策略來計算間諜樣例屬于兩個類別的概率權重。最后將所有間諜樣例和其概率權重融合到SVM (Support Vector Machine)的學習階段,訓練出準確的分類器。數(shù)值實驗證實了所提算法的有效性。
Event-driven Headline Generation(ACL2015)提出一種事件驅動的標題生成模型。給定一篇文本,首先提取一組結構化事件組成的主干事件鏈,然后采用一種多語句壓縮方法融合這組關鍵事件以生成文本的標題。模型使用事件結構融合提取式標題生成和生成式標題生成方法的優(yōu)點。在標準評測數(shù)據集上的結果表明該模型能取得比以前的主流方法更好的效果。
2、軟件著作權:
1)基于語塊識別的新聞原子事件抽取系統(tǒng),中華人民共和國國家版權局(證書號:軟著登字第0679374號);
2)藥病語義關系自動發(fā)現(xiàn)系統(tǒng),中華人民共和國國家版權局(證書號:軟著登字第0679104號);
3)中文維基百科時間信息自動抽取系統(tǒng),中華人民共和國國家版權局(證書號:軟著登字第0679442號)。
3、專利:
基于信息單元融合的新聞原子事件抽取方法,中華人民共和國國家知識產權局,(專利受理號:20140108447.0)