(一)研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況
本項目旨在探討面向事件結(jié)構(gòu)基于本體動力學(xué)的語義網(wǎng)模型,通過事件和事件鏈的標(biāo)注,奠定計算機(jī)進(jìn)行文本理解和查詢推理的基礎(chǔ),并通過本體演化實現(xiàn)領(lǐng)域本體結(jié)構(gòu)的構(gòu)建,從而實現(xiàn)對文本內(nèi)容的語義理解。根據(jù)項目內(nèi)容和預(yù)期目標(biāo),該項目分為五個子課題協(xié)同推進(jìn),分別是:面向事件的本體結(jié)構(gòu)資源建設(shè)、面向事件的語義網(wǎng)表示和推理機(jī)制、基于知識發(fā)現(xiàn)的本體演化機(jī)制研究、事件語義的自動標(biāo)注研究和基于事件的語義查詢與推理研究。
項目開展以來,項目組整合了武漢大學(xué)、中南財經(jīng)政法大學(xué)和武漢科技大學(xué)等多所大學(xué)和單位的多學(xué)科研究力量及相關(guān)學(xué)院的資源,分子課題或集中研討,協(xié)同推進(jìn),現(xiàn)各子課題基本完成預(yù)期時間節(jié)點任務(wù)要求,確保了整個項目正常推進(jìn)。
子課題一為面向事件的本體結(jié)構(gòu)資源建設(shè),旨在建立涵蓋實體、屬性、性質(zhì)、事件及其上下位關(guān)系的基礎(chǔ)本體結(jié)構(gòu),建立涵蓋事件和事件鏈的語義標(biāo)注資源,為文本的深度語義標(biāo)注、上下文理解和語義查詢及推理奠定基礎(chǔ)。
本體結(jié)構(gòu)方面,我們用近年新創(chuàng)的“詞群-詞位變體理論”和“基元結(jié)構(gòu)理論”構(gòu)建了移動類事件和言說類事件的局域系統(tǒng),其創(chuàng)新點是:事件觸發(fā)詞具有伸縮性的類系統(tǒng),同類事件的本體結(jié)構(gòu)可通過本體自動創(chuàng)建,為篇章事件的理解標(biāo)注和機(jī)器自學(xué)習(xí),提供了新的語言資源。
事件資源方面,在總結(jié)和研究多學(xué)科相關(guān)成果的基礎(chǔ)上,根據(jù)語言信息處理和人工智能的需要,把事件定位為話題結(jié)構(gòu)的語義及其結(jié)構(gòu)。結(jié)合語言的功能和信息特點,構(gòu)建了適用于語言信息處理的事件理論系統(tǒng),F(xiàn)階段我們集中對敘述類和描述類事件篇章的事件鏈進(jìn)行標(biāo)注。
目前我們確定了語料標(biāo)注的具體步驟,包括語料的選擇、語料的預(yù)處理、詞匯鏈標(biāo)注、事件及事件鏈標(biāo)注,并對數(shù)據(jù)進(jìn)行了部分標(biāo)注。事件結(jié)構(gòu)表示為謂詞及其論元結(jié)構(gòu),為篇章事件鏈的標(biāo)注奠定了基礎(chǔ)。與以往的事件結(jié)構(gòu)研究只是局限在句法層面所不同的是,本項目提出,篇章的基本構(gòu)成單位是事件,每個事件內(nèi)部存在一個語義結(jié)構(gòu),同時,篇章內(nèi)部事件之間也存在相互關(guān)系,這些事件本體之間的相互關(guān)系構(gòu)成了篇章語義關(guān)系的雛形---事件鏈。篇章的語義分析通過實踐和事件鏈的分析實現(xiàn)。
在事件鏈標(biāo)注中,從篇章中的詞匯鏈入手,根據(jù)這些詞匯鏈所覆蓋的最長名詞短語所觸發(fā)的謂詞形成的鏈條來確定篇章的語義結(jié)構(gòu)。本子課題的創(chuàng)新之處在于引進(jìn)詞匯鏈上詞匯所在的最長名詞短語(NP鏈),保證了詞匯鏈上名詞短語的中心詞、名詞短語的修飾語甚至謂詞都能跟事件觸發(fā)詞通過NP鏈取得聯(lián)系,確定與不同語法位置的體詞緊密聯(lián)系的謂詞。在詞匯鏈標(biāo)注環(huán)節(jié),嚴(yán)格按照同形、同指、同義三原則,以跨句兩次及以上的重復(fù)為判別標(biāo)準(zhǔn);在從詞匯鏈到NP鏈標(biāo)注環(huán)節(jié),按照句法關(guān)系將詞匯鏈上詞匯擴(kuò)展到其所在名詞短語的最大投射;從NP鏈到事件鏈環(huán)節(jié),事件觸發(fā)詞是其自身與直接論元所在NP鏈在當(dāng)句中覆蓋詞匯鏈最多的那一個謂詞,通過比較計算詞匯鏈詞匯數(shù)量的方式推導(dǎo)出事件觸發(fā)詞。標(biāo)注的各個環(huán)節(jié)盡可能確?陀^操作性和可重復(fù)性,由此提取出來的主干事件鏈既直接反映篇章連貫,又以精簡形式概括了文章主旨。
子課題二為面向事件的語義網(wǎng)表示和推理機(jī)制,此課題旨在研究大規(guī)模的事件語義描述及其推理模型和引入統(tǒng)計推理,以支持面向事件的語義查詢和實時自然語言查詢,并從邏輯基礎(chǔ)的角度來驗證這種表示機(jī)制的可滿足性和可判定性。目前,對于事件表示機(jī)制,我們分析了事件表示機(jī)制時間、角色等基礎(chǔ)屬性,在綜合分析RDF、OWL等語言表示機(jī)制的基礎(chǔ)上,探討了一種基于Named Graph的事件語義表示機(jī)制,它以RDF表示語言為基礎(chǔ),擴(kuò)展其Endpoint機(jī)制,支持基于圖的語言表示,符合事件表示的需求。另外,在現(xiàn)有SPARQL語言基于Pattern Tree的代數(shù)表示語言的基礎(chǔ)上,設(shè)計了一種支持事件語義的SPARQL Algebra,并在Raptor SPARQL查詢語言實現(xiàn)機(jī)制的基礎(chǔ)上,實現(xiàn)了相應(yīng)的原型。在事件語義方面,主要完成了三個方面的研究:①設(shè)計了支持事件的中文開放醫(yī)學(xué)鏈接數(shù)據(jù),將其中的重要事件如手術(shù)、病狀變化、用藥等采用事件語義進(jìn)行表示,并在此基礎(chǔ)上與武漢協(xié)和醫(yī)院、中南醫(yī)院進(jìn)行廣泛合作,開展了抗菌藥物合理用藥監(jiān)管的研究。②針對設(shè)備管理中存在知識管理方式不足的問題,設(shè)計了一種基于事件語義的新型設(shè)備知識管理、績效評價等機(jī)制。目前已經(jīng)實現(xiàn)了相應(yīng)的原型系統(tǒng),并在整理設(shè)備管理相關(guān)開放鏈接數(shù)據(jù)庫。③針對消防信息系統(tǒng)中信息異構(gòu)、多樣性的特點,以事件語義表示機(jī)制為基礎(chǔ),設(shè)計了消防開放鏈接數(shù)據(jù),采用事件語義表示其中的狀態(tài)變化等方面的問題。目前已經(jīng)完成了一個具體項目的研發(fā)(武漢鋼鐵集團(tuán)消防綜合信息管理系統(tǒng)和指揮決策系統(tǒng)),在開放鏈接數(shù)據(jù)方面,已經(jīng)完成了消防總體開放鏈接庫的設(shè)計,并完成了目前國內(nèi)所有危化品知識庫的設(shè)計。
本子課題在以下方面有所創(chuàng)新:1)從邏輯的角度對事件語義進(jìn)行了形式化的定義,將事件定義為一個具有時間、角色等多種屬性的元素,并具體采用Named Graph描述事件語義;從查詢的角度,定義了事件查詢的算子;2)首次從事件的角度描述手術(shù)、病情變化等用常規(guī)方法無法準(zhǔn)確描述的醫(yī)學(xué)信息資源。并以此為基礎(chǔ)進(jìn)行了臨床應(yīng)用嘗試;3)建立了醫(yī)學(xué)、消域等專業(yè)領(lǐng)域的中文開放鏈接數(shù)據(jù),豐富了中文開放鏈接數(shù)據(jù)庫的內(nèi)容,并為相關(guān)應(yīng)用奠定基礎(chǔ)。
子課題三為基于知識發(fā)現(xiàn)的本體演化機(jī)制研究,旨在研究在大規(guī)模文本的作用下,基礎(chǔ)本體到領(lǐng)域本體以及領(lǐng)域本體間的演化機(jī)制。這方面的主要進(jìn)展在于:1)設(shè)計并開發(fā)了從文本中抽取關(guān)鍵詞和概念的機(jī)制,能自動發(fā)現(xiàn)特定領(lǐng)域中涌現(xiàn)的新概念;2)設(shè)計并開發(fā)了概念屬性及屬性值的發(fā)現(xiàn)機(jī)制,能確定新概念的屬性及屬性值;3)自動發(fā)現(xiàn)領(lǐng)域文本中的事件觸發(fā)詞及其論元。這些工作的創(chuàng)新性在于:第一,利用無指導(dǎo)的方法發(fā)現(xiàn)新關(guān)鍵詞和概念;第二,利用復(fù)雜網(wǎng)絡(luò)的辦法發(fā)現(xiàn)新的社團(tuán),其中包含事件觸發(fā)詞和可能的論元。下一步的工作集中在基于復(fù)雜網(wǎng)絡(luò)技術(shù)探討本體結(jié)構(gòu)的演化規(guī)律,以及結(jié)合描述復(fù)雜性理論探討領(lǐng)域本體的收斂性問題。
子課題四為事件語義的自動標(biāo)注研究,本課題旨在基于人工標(biāo)注的一定數(shù)量語料實例和概念本體的基礎(chǔ)上,遵照人工標(biāo)注事件語義規(guī)范,利用機(jī)器學(xué)習(xí)方法,進(jìn)行事件結(jié)構(gòu)學(xué)習(xí)和事件關(guān)系抽取,為未標(biāo)注Web頁面自動進(jìn)行事件語義標(biāo)注,并在事件語義自動標(biāo)注軟件的幫助下,獲得更多的標(biāo)注了事件語義的語料實例,擴(kuò)展事件本體資源的規(guī)模。目前,我們探討了原子事件語義角色,形成了包括3個主體語義角色、4個客體語義角色、2個時空語義角色、5個附加語義角色以及否定、模態(tài)、時態(tài)等事件語義算子在內(nèi)的事件語義角色規(guī)范;深入了解了成篇七原則中的銜接與連貫,探討了(原子)事件語義關(guān)系,形成了包括3個平行類型、4個偏正類型在內(nèi)的事件語義關(guān)系規(guī)范;設(shè)計并實現(xiàn)了人工輔助事件語義標(biāo)注工具,針對NTCIR-9 RITE任務(wù)的語料,進(jìn)行了人工事件語義標(biāo)注,對人工標(biāo)注過程中的問題進(jìn)行了深入討論;設(shè)計并實現(xiàn)了新聞門戶網(wǎng)站(網(wǎng)易)的網(wǎng)絡(luò)爬蟲,通過預(yù)處理模塊獲取所爬取的網(wǎng)頁內(nèi)容。
本子課題的創(chuàng)新之處在于:1)基于新聞文本統(tǒng)計特征以及語言規(guī)則,抽取原子事件,獲取新聞文本分析與理解的焦點;2)對事件語義結(jié)構(gòu)與事件語義關(guān)系規(guī)范的探討,可以促進(jìn)新聞文本事件語義結(jié)構(gòu)自動標(biāo)注與事件語義關(guān)系標(biāo)注,有助于新聞文本語義理解;3)將事件語義自動標(biāo)注與醫(yī)療文本信息結(jié)合,利用事件語義自動標(biāo)注方法,對藥物說明書與電子病歷文本進(jìn)行基于事件語義的計算與理解。
子課題五為基于事件的語義查詢與推理研究,本項目旨在建立一種基于事件的推理模型,以及一種基于事件推理的語義查詢與推理系統(tǒng)。按照預(yù)期目標(biāo),已經(jīng)完成以下研究:①推理的形式化表示和推理中涉及的事件關(guān)系,即互釋(復(fù)述)關(guān)系和推導(dǎo)關(guān)系的研究,以及事件之間邏輯關(guān)系的研究。②事件圖的構(gòu)建,從詞匯資源、推理資源和在線知識庫中抽取事件,其中的事件構(gòu)成節(jié)點,事件間的推理關(guān)系構(gòu)成邊。③完成了基于事件的蘊(yùn)涵識別算法,利用Dijkstra算法構(gòu)建推理算法,并提出了蘊(yùn)涵置信度評估方法。④完成了基于事件鏈的推理算法。對事件鏈中的邏輯關(guān)系進(jìn)行分類,并利用啟發(fā)式規(guī)則實現(xiàn)邏輯關(guān)系的自動判斷,推理過程采用啟發(fā)式規(guī)則進(jìn)行識別。⑤在評測平臺方面,完成了RTE、NTCIR評測數(shù)據(jù)收集分析,并對評測工作現(xiàn)狀進(jìn)行分析,完成了原型系統(tǒng)設(shè)計、錯誤分析和系統(tǒng)改進(jìn)。在此基礎(chǔ)上,課題成員參與了NTCIR-10組織的的中文文本推理任務(wù),系統(tǒng)效果在參賽隊伍中名列前茅。
本子課題的創(chuàng)新性在于提出了基于事件圖模型的蘊(yùn)涵識別方法,該方法能一定程度刻畫深度語義,能夠識別面向語篇的蘊(yùn)涵關(guān)系,有助于提高語義查詢系統(tǒng)的性能。
(二)調(diào)研及學(xué)術(shù)交流情況
項目初期,項目組廣泛查閱了相關(guān)課題國內(nèi)外研究現(xiàn)狀,從語義網(wǎng)知識表示、本體演化、語義查詢與推理等方面對前人研究成果進(jìn)行了歸納綜述,總結(jié)了前人成果存在的語義理解深度不夠、無法處理大規(guī)模實時性語義推理以及依靠領(lǐng)域?qū)<沂止そ?gòu)等方面的問題,以此為依據(jù)來謀劃布局本項目的研究目標(biāo)和實施方案。
項目實施以來,為了幫助和實現(xiàn)項目的研究在國內(nèi)外學(xué)科前沿高水平展開,除了團(tuán)隊內(nèi)部的例行討論,我們還注重與國內(nèi)外著名專家學(xué)者的火花碰撞,先后邀請了多位國內(nèi)外知名教授和語義網(wǎng)領(lǐng)域?qū)<仪皝碇v座交流,深入探討語言哲學(xué)、語言認(rèn)知等語言學(xué)宏觀問題以及語言信息處理等技術(shù)前沿問題。
2012年9月,荷蘭阿姆斯特丹自由大學(xué)計算機(jī)系高級研究員、歐盟第七框架重大項目LarKC中推理組重要成員黃智生教授,通過介紹歐盟第七框架重大語義萬維網(wǎng)技術(shù)項目LarKC (http://www.larkc.eu) 所開發(fā)的海量語義處理平臺及其語義技術(shù)在生命科學(xué)上的應(yīng)用,闡述了海量語義數(shù)據(jù)處理技術(shù)的基本原理、實現(xiàn)方法和應(yīng)用開發(fā)等一系列關(guān)鍵問題,對我們項目子課題五中語義查詢與推理在學(xué)術(shù)上和應(yīng)用上與國際最新進(jìn)展同步,具有重要作用。
12月,國內(nèi)著名語言學(xué)家馮志偉教授應(yīng)邀到我校與項目組成員進(jìn)行為期一周的交流討論。以語言計算的先驅(qū)、認(rèn)知語言學(xué)的研究及語言學(xué)的戰(zhàn)略轉(zhuǎn)移為主題,馮教授對語言學(xué)及計算語言學(xué)進(jìn)行全方位的概述,提出了“反思哲學(xué)”的觀點,此觀點對我們項目研究中關(guān)于語言本體構(gòu)建及知識表達(dá)的科學(xué)性具有啟迪和指導(dǎo)作用。
今年4月,國內(nèi)著名計算語言學(xué)專家,清華大學(xué)黃昌寧教授應(yīng)項目組邀請來我校作客講學(xué),黃教授重點解答了如何處理在大數(shù)據(jù)時代背景下的語言知識構(gòu)建、語言學(xué)分析的關(guān)系問題。他還充分肯定了本項目關(guān)于本體知識構(gòu)建的重要性,其訪學(xué)對我們更好地完成項目語言本體的構(gòu)建給予了極大的幫助。
5月,基于子課題二“面向事件的語義網(wǎng)表示與推理機(jī)制”,我們特別邀請了荷蘭阿姆斯特丹自由大學(xué)人工智能系知識表示與推理研究組Frank van Harmelen教授前來交流。Frank van Harmelen作為語義網(wǎng)領(lǐng)域國際著名專家,語義網(wǎng)國際標(biāo)準(zhǔn)語言O(shè)WL的共同設(shè)計者,并作為共同項目負(fù)責(zé)人主持全球第一個語義網(wǎng)研究項目ON-TO-KNOWLEDGE,目前正在領(lǐng)導(dǎo)歐盟大規(guī)模知識加速器項目LarKC。與Frank van Harmelen教授的交流主要涉及元級推理以及如何進(jìn)行有效的知識表示以提高從數(shù)據(jù)中自動識別正確答案的能力。他提出了一種基于啟發(fā)式聚類的方法,該方法與我們基于事件的查詢方式結(jié)合,對克服目前學(xué)界相關(guān)研究的不足,提高我們這方面的研究層次作用甚大。
5月,還組織了《海量語義數(shù)據(jù)與醫(yī)學(xué)信息系統(tǒng)》方面的YOCSEF研討會,與受邀來華訪問專家、國際及國內(nèi)部分醫(yī)學(xué)信息系統(tǒng)研究廠商共同探討海量語義數(shù)據(jù)存儲機(jī)制、事件語義在臨床質(zhì)量監(jiān)管等方面的應(yīng)用。
此外,2012年7月6日至9日,課題組和我校計算機(jī)學(xué)院及語言與信息研究中心共同主辦了第13屆漢語詞匯語義學(xué)研討會,此次研討會以漢語詞匯語義學(xué)的理論、方法、計算及其應(yīng)用為主題,邀請了日本國東京外國語大學(xué)語言學(xué)家Yukio Tono、韓國浦項科技大學(xué)教授LEE Jong-Hyeok、蘇州大學(xué)計算機(jī)學(xué)院教授周國棟分別就詞匯語義學(xué)、機(jī)器翻譯中的詞匯語義學(xué)、自然語言處理中的語義分析研究等話題作會議特邀報告。會后,大會組織相關(guān)領(lǐng)域的專家從來自法國、俄羅斯、日本、韓國、新加坡、蒙古和中國及香港、臺灣等共10個國家和地區(qū)的160余名語言學(xué)家和計算語言學(xué)專家的140多篇論文和摘要中篩選出110篇論文形成會后論文集,該論文集英文版由德國Springer(LNAI)出版社出版,并被EI檢索。
(三)代表性成果簡介
武漢大學(xué)該社科重大項目,總結(jié)當(dāng)前語言信息處理成果與不足,在計算機(jī)語義理解成為中文信息處理的熱點與前沿的時代背景下,積極探索構(gòu)建新的語義理解和語義推理模型。對“事件”概念的再定義以及以詞群——詞位變體理論為基礎(chǔ)的漢語同義詞群建構(gòu),為我們提出基于事件鏈的語篇連貫理論,通過詞匯鏈的標(biāo)注進(jìn)而追溯事件詞提供了可行性上的支持,從而給出了一個判定和應(yīng)用語篇連貫的新方法。
項目至今,我們在資源建設(shè)、軟件開發(fā)、學(xué)術(shù)交流和論文撰寫等方面已經(jīng)取得了一些代表性的研究成果。在成果表述方面,由項目負(fù)責(zé)人蕭國政教授和姬東鴻教授合寫的《智能性新一代語義網(wǎng)模型:語言科學(xué)與計算機(jī)科學(xué)的深度聯(lián)姻》在中國社會科學(xué)報上發(fā)表。
迄今,項目組成員發(fā)表中英文學(xué)術(shù)成果53項,其中專著3部,論文集1部,博士學(xué)位論文3篇,其它論文46篇,其中中文類核心和計算機(jī)類核心各1篇,18篇被收錄EI檢索。
(1)資源建設(shè)、軟件開發(fā)、論文發(fā)表方面
子課題一在研究事件結(jié)構(gòu)的基礎(chǔ)上,確立了漢語篇章中詞匯鏈、事件和事件鏈的標(biāo)注原則,并開發(fā)了事件鏈標(biāo)注平臺Event Annotation Platform。目前,我們已經(jīng)完成1000篇中文篇章中的事件鏈的標(biāo)注,事件鏈標(biāo)注語料統(tǒng)一來源于賓州中文樹庫的生語料;谶@些研究,已發(fā)表論文13篇。
子課題二以三元組形式完成了消防、設(shè)備管理領(lǐng)域和臨床醫(yī)學(xué)領(lǐng)域的資源建構(gòu)。前者構(gòu)建了1735種;芳捌湎鄳(yīng)規(guī)則;后者主要表現(xiàn)為三個方面的成果:①根據(jù)《衛(wèi)生部抗生素用藥指南》生成了247條邏輯規(guī)則,998條三元組。②根據(jù)武漢協(xié)和醫(yī)院指定的88種抗生素藥生成了2728條三元組。③對DrugBank中的6689種藥物進(jìn)行漢化處理,生成了528431條三元組,并與國內(nèi)藥物建立了映射關(guān)系。該課題以應(yīng)用為導(dǎo)向,對基于語義的合理用藥監(jiān)管、基于語義和云服務(wù)的設(shè)備管理技術(shù)作了深入研究,這些應(yīng)用成果預(yù)見了語義網(wǎng)技術(shù)在醫(yī)藥領(lǐng)域和設(shè)備領(lǐng)域的應(yīng)用前景。目前,該課題已發(fā)表論文10篇,其中6篇被EI檢索。
子課題三已開發(fā)了一系列關(guān)鍵詞、概念、屬性和屬性值、事件等的發(fā)現(xiàn)工具,為確立本體演化機(jī)制奠定了基礎(chǔ)。目前已發(fā)表論文3篇。
子課題四按照目前的事件語義標(biāo)注規(guī)范,已經(jīng)人工標(biāo)注了2701個原子事件,基于此開發(fā)了基于統(tǒng)計與規(guī)則的新聞原子事件自動抽取系統(tǒng)和人工輔助事件語義標(biāo)注工具。在研究基礎(chǔ)上,出版了專著《基于認(rèn)知與計算的事件語義學(xué)研究》,從認(rèn)知與計算角度介紹有關(guān)事件語義學(xué)的內(nèi)容,探索事件語義結(jié)構(gòu)認(rèn)知和事件語義關(guān)系,并從計算角度討論了事件語義的形式化。另外,發(fā)表學(xué)術(shù)論文5篇,其中EI收錄期刊1篇,EI收錄會議2篇,中文核心期刊1篇;已錄用待發(fā)表的中文核心期刊2篇,學(xué)術(shù)會議論文1篇。
子課題五在明確推理涉及的事件關(guān)系類別的基礎(chǔ)上,完成了事件圖的構(gòu)建,實現(xiàn)了基于事件的蘊(yùn)涵識別方法和基于事件鏈的推理算法。在平臺方面,完成了各個評測數(shù)據(jù)收集分析,并對評測工作現(xiàn)狀進(jìn)行分析,完成了原型系統(tǒng)設(shè)計、錯誤分析和系統(tǒng)改進(jìn);谠撜n題,已發(fā)表12篇學(xué)術(shù)論文,對于事件語義進(jìn)行了充分的闡述。
(2)學(xué)術(shù)交流和學(xué)術(shù)報告方面
項目組成員還積極參與海內(nèi)外各項相關(guān)學(xué)術(shù)活動,交流和宣傳本項目的研究及其成果。
2012年7月和12月,項目負(fù)責(zé)人蕭國政教授分別在第13屆詞匯語義學(xué)國際研討會和湖北省語言學(xué)會年會大會上作題為《詞義的單個研究與集群研究》的大會報告;10月,在江蘇召開的“當(dāng)代語言科學(xué)創(chuàng)新與發(fā)展國際學(xué)術(shù)研討會暨《語言科學(xué)》創(chuàng)刊十周年慶典大會”上作關(guān)于《事件模型與事件本體建構(gòu)——面向自然語言理解的事件研究》的會議報告;10月在華中師大召開的“漢語語序問題”國際學(xué)術(shù)研討會上,擔(dān)任大會主席,并作關(guān)于《報告,息序、言語結(jié)構(gòu)與漢語理解——兼論“焦點敏感算子”的語言性質(zhì)》的論文報告;8月,出席英國利茲大學(xué)語言學(xué)與漢語教學(xué)國際會議,作關(guān)于《區(qū)分培養(yǎng)對象,回歸語言本體,指向語言應(yīng)用——指向語言應(yīng)用的分對象本體研究》的大會主題報告。
此外,項目組成員還在CLSW2012、Coling2012和PAKDD2013等計算語言學(xué)領(lǐng)域的國際學(xué)術(shù)會議上作大會報告和論文報告。2012年2月至2013年2月,項目組還派出成員赴新加坡國立大學(xué)進(jìn)行學(xué)術(shù)訪問,就文本事件語義與社區(qū)問答相結(jié)合的問題進(jìn)行深入探討與研究。
(3)簡報報送方面
項目開展以來,為了及時反饋項目進(jìn)展,報送簡報6期。
第一期簡報報道了2012年2月15日的項目開題報告會,此次開題報告,明確了該項目的研究構(gòu)成、研究目標(biāo)、研究意義、步驟方法和預(yù)期成果以及現(xiàn)有基礎(chǔ),并就項目的5個子課題分別制定了工作手冊,明確了子課題的項目內(nèi)容、進(jìn)度安排、人員分工、經(jīng)費(fèi)預(yù)算、成果形式、成果及成果進(jìn)展的檢查及驗收標(biāo)準(zhǔn)等,對項目開題和全面實施進(jìn)行了較充分的規(guī)劃和準(zhǔn)備。
第二期簡報報道了2012年4月19日的項目培訓(xùn)會,在此次針對各子課題負(fù)責(zé)人和參與項目的其他博士、碩士的專題培訓(xùn)會上,對所有參項人員進(jìn)行了整合和分組。通過培訓(xùn),各子課題負(fù)責(zé)人明確了本項目的實施和推進(jìn)方式以及個人所負(fù)責(zé)子課題的具體任務(wù)。
第三期簡報匯報了2012年7月8日項目研討會的召開情況,此次研討會邀請了語言信息處理領(lǐng)域的知名專家香港理工大學(xué)文學(xué)院院長黃居仁教授、蘇州大學(xué)自然語言處理實驗室負(fù)責(zé)人周國棟教授,他們就語義學(xué)領(lǐng)域有關(guān)事件的研究做了綜述,在肯定本項目研究意義的同時,對自然語言處理中的語義關(guān)系抽取進(jìn)行了詳細(xì)闡述,給了項目組很多啟發(fā)。
第四期簡報報告了該項目的應(yīng)用研究成果在服務(wù)社會方面的新亮點,即基于該課題應(yīng)用的研究成果“2012年中國教育熱點網(wǎng)絡(luò)輿情報告”,在全國“兩會”前召開的第五屆“北京?長江教育論壇”上發(fā)布的《中國教育黃皮書》(2013)中刊登,后被多家重要媒體轉(zhuǎn)載報道,引起了強(qiáng)烈的社會反響,標(biāo)志著該項目在服務(wù)于應(yīng)用方面邁出了堅實的一步。
第五期簡報報告了項目開展以來項目組邀請國內(nèi)外專家學(xué)者進(jìn)行報告交流的整體概況,我們邀請了荷蘭阿姆斯特丹自由大學(xué)計算機(jī)系高級研究員以及歐盟第七框架重大項目LarKC中推理組重要成員黃智生教授、國內(nèi)著名語言學(xué)家馮志偉教授、清華大學(xué)黃昌寧教授、荷蘭阿姆斯特丹自由大學(xué)人工智能系知識表示與推理研究組Frank van Harmelen教授、香港理工大學(xué)文學(xué)院院長黃居仁教授、蘇州大學(xué)自然語言處理實驗室負(fù)責(zé)人周國棟教授等專家學(xué)者來我校作報告交流,從宏觀和圍觀層面與項目組成員共同探討語言信息處理的發(fā)展現(xiàn)狀與前景展望,并吸收他們對于本項目的建設(shè)性意見。
第六期簡報報告了2013年項目核心資源——事件鏈語料標(biāo)注系列研討會開展情況,迄今研討會共召開了11次,通過多次的試錯和修正,基本確定了詞匯鏈、NP鏈、事件和事件鏈的確定和標(biāo)注原則,以及從詞匯鏈到NP鏈、從NP鏈再到事件鏈的整體標(biāo)注思路,并從可操作性方面比較了從依存語義角度和NP鏈角度進(jìn)行標(biāo)注的優(yōu)劣,在操作性上認(rèn)可了NP鏈角度在客觀性及效率性上的顯著優(yōu)勢。隨著討論的不斷深入,還確定了事件鏈牽出之后其事件結(jié)構(gòu)的描寫方式,即其直接論元只用描寫其中心語,然后在結(jié)構(gòu)之后附加其在詞匯鏈上的修飾語對這個中心語的依存關(guān)系。
(四)成果宣傳推介情況
子課題一基于事件本體和事件鏈的中文資源建設(shè)從比較成熟的詞匯鏈理論出發(fā),結(jié)合事件結(jié)構(gòu)的相關(guān)理論進(jìn)而發(fā)現(xiàn)篇章的語義結(jié)構(gòu),這種方法既反映語義內(nèi)容,也具有結(jié)構(gòu)信息,更能反映篇章的語義內(nèi)容,為語篇連貫提供了合適的描寫機(jī)制和計算基礎(chǔ)。目前,該方法在自動文摘和語言教學(xué)中的寫作教學(xué)中的優(yōu)勢已經(jīng)初步顯現(xiàn)。該部分資源的建設(shè)匯聚了來自文學(xué)院、外語學(xué)院、計算機(jī)學(xué)院的項目組成員的集體智慧,展示了多學(xué)科和跨學(xué)科合作的潛力,其論文在國內(nèi)外學(xué)術(shù)會議進(jìn)行了宣讀和報告。
子課題二基于語義的合理用藥監(jiān)管研究首次將語義技術(shù)應(yīng)用于臨床用藥監(jiān)管領(lǐng)域,對于臨床中用藥、病情變化及手術(shù)等難以用傳統(tǒng)邏輯方法描述的事件進(jìn)行研究,實現(xiàn)了根據(jù)病人病情發(fā)展、藥品等綜合因素進(jìn)行智能用藥監(jiān)管。目前,該項技術(shù)已經(jīng)受到了廣泛的關(guān)注,國內(nèi)7家省級報社及電視臺報道了項目組與協(xié)和醫(yī)院的初步研究成果。此外,該子課題基于語義和云服務(wù)的設(shè)備管理關(guān)鍵技術(shù)研究首次將云服務(wù)機(jī)制和語義技術(shù)引入設(shè)備管理領(lǐng)域,用于設(shè)備只是管理、運(yùn)維計劃及績效考核,取得了良好的效果反饋。該課題通過了省級項目鑒定,等級認(rèn)定為國內(nèi)領(lǐng)先。
子課題三項目成員一方面參與了本領(lǐng)域的幾個主要學(xué)術(shù)會議,同時也將本體結(jié)構(gòu)的部分研究成果應(yīng)用到了互聯(lián)網(wǎng)數(shù)據(jù)中心和輿情分析領(lǐng)域,并在國家安全、教育和醫(yī)療等領(lǐng)域得到了具體應(yīng)用。
子課題四項目成員在CLSW2013國際學(xué)術(shù)會議期間,就原子事件語義結(jié)構(gòu)標(biāo)注方面的問題進(jìn)行了交流;在新加坡國立大學(xué)學(xué)術(shù)訪問期間,就文本事件語義與社區(qū)問答相結(jié)合的問題進(jìn)行了探討與研究;參與了將事件語義運(yùn)用到醫(yī)療信息處理方面的宣傳與推廣。
子課題五成功運(yùn)用于教育領(lǐng)域熱點網(wǎng)絡(luò)輿情監(jiān)測和收集,該系統(tǒng)對2012年教育熱點網(wǎng)絡(luò)輿情的監(jiān)測,被今年全國“兩會”前召開的第五屆“北京?長江教育論壇”上發(fā)布的《中國教育黃皮書》(2013)刊登引用,會后多家重要媒體如中國青年報、中國新聞網(wǎng)、人民網(wǎng)、新華網(wǎng)、中國教育網(wǎng)、鳳凰網(wǎng)、搜狐、網(wǎng)易等都進(jìn)行了報道轉(zhuǎn)載。據(jù)不完全統(tǒng)計,大陸及香港不同網(wǎng)站、網(wǎng)頁轉(zhuǎn)載250余次,引起了有關(guān)部門和社會大眾對我國教育現(xiàn)狀的深刻反思。
階段性成果
序號 |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或 出版時間 |
字?jǐn)?shù) |
轉(zhuǎn)載、引用、獲獎等情況 |
1 |
中國語文的現(xiàn)代化與國際化 |
蕭國政 |
專著 |
軍事科學(xué)出版社, 2012,7月 |
|
|
2 |
基于認(rèn)知與計算的事件語義學(xué)研究 |
劉茂福胡慧君 |
專著 |
科學(xué)出版社 |
25100 |
|
3 |
言說動詞概念語義網(wǎng)絡(luò)系統(tǒng)構(gòu)建研究 |
肖珊 |
專著 |
光明日報出版社 (2013.8) |
129400 |
|
4 |
現(xiàn)代漢語判斷性事件的句法語義分析 |
屠愛萍 |
博士學(xué)位論文 |
武漢大學(xué) 2013 |
14200 |
|
5 |
基于事件鏈的語篇連貫研究 |
張明堯 |
博士學(xué)位論文 |
武漢大學(xué)博士學(xué)位論文,2013年5月 |
130000 |
|
6 |
以“拿”為認(rèn)知基元的現(xiàn)代漢語動詞同義詞群建構(gòu)研究 |
馮麗 |
博士學(xué)位論文 |
武漢大學(xué)博士學(xué)位論文 |
|
|
7 |
Chinese Lexical Semantics(《漢語詞匯語義學(xué)》) |
姬東鴻 蕭國政主編 |
論文集 |
第13屆詞匯語義學(xué)國際研討會(CLSW2012)論集 【德國】Springer出版社, 2013,2月 |
|
EI檢索 |
8 |
Discourse Coherence: Lexical Chain, Complex Network and Semantic Field |
Mingyao Zhang |
論文 |
Ji, D. H. & Xiao, G. Z. (eds.). Chinese Lexical Semantics [C]. Berlin: Springer, pp. 756–765, 2013. |
5200 |
EI檢索 |
9 |
Verbal Empty Categories and Their Types in Mandarin |
Tu, A. P.& Zhang, L. |
論文 |
In Ji, D. H. & Xiao, G. Z. (eds.). Chinese Lexical Semantics [C]. Berlin: Springer, 2013. |
18000 |
EI檢索 |
10 |
The NLP-Oriented Empty Categories [A]. Proceedings of the 2nd International Conference on EMEIT |
Tu, A. P. |
論文 |
Paris:Atlantis Press, 2012. |
11000 |
EI檢索 |
11 |
Semantic Labeling of Chinese Serial Verb Sentences Based on Feature Structure |
Bo Chen,Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
12 |
Measuring the Semantic Relevance between Term and Short Text: Using the Concepts of Shortest Path Length and Relatively Important Community |
Hua Yang,Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
13 |
Rapid Increase of the Weighted Shortest Path Length in Key Term Concurrence Network and Its Origin |
Lan Yin, Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
14 |
Discourse Coherence: Lexical Chain, Complex Network and Semantic Field |
Mingyao Zhang,Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
15 |
New Exploration into the Word Semantic Generation Mechanism Based on Word Representation |
Shengjian Ni, Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
16 |
Atomic Event Semantic Roles and Chinese Instances Analysis |
Maofu Liu,Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
14000 |
EI檢索 |
17 |
The Systematic Characters of Synonymous Paradigm in Chinese |
Dan Hu |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
14000 |
EI檢索 |
18 |
Leveraging Hybrid Citation Context for Impact Summarization |
Po Hu,Donghong Ji |
論文 |
In Proceedings of the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2013).Springer
|
3000 |
|
19 |
Context-Enhanced Personalized Social Summarization |
Po Hu,Donghong Ji |
論文 |
In Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012) |
3000 |
|
20 |
Joint Na?ve Bayes and LDA for Unsupervised Sentiment Analysis |
Yong Zhang, Donghong Ji |
論文 |
In Proceedings of the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2013).Springer
|
3000 |
|
21
|
Ensemble Learning for Sentiment Classification |
Ying Su, Yong Zhang, Donghong Ji |
論文 |
The 13th Chinese Lexical Semantics Workshop,China(CLSW2012).Springer |
13000 |
EI檢索 |
22 |
On the core elements in sememic description from the perspective of lexicographical interpretation |
王興隆 |
論文 |
第十三屆漢語詞匯語義學(xué)研討會2012 |
6584 |
EI檢索 |
23 |
The Text Deduction and Model Realization of the Lexical Meanings in Dictionaries Based on “Synset-Lexeme Anamorphosis” and “Basic Semantic Elements and Their Structures” |
蕭國政王興隆 |
論文 |
第十三屆漢語詞匯語義學(xué)研討會 2012 |
6290 |
EI檢索 |
24 |
Semantic derivation patterns of the Chinese character "SHENG" - A Perspective from metaphor |
Xiong, Weidu;Zhao, Ling |
論文 |
Chinese Lexical Semantics - 13th Workshop, CLSW 2012、LNAI, 2013, |
6497 |
EI檢索 |
25 |
A Syntactic, Semantic and Cognitive Analysis of Existential Sentence Oriented to Language Information Processing—Taking “V-Construction” as an Example |
Xiong, Weidu |
論文 |
Advanced Materials Research Vols. 756-759 (2013) pp 2081-2085 |
3080 |
|
26 |
Atomic Event Semantic Roles and Chinese Instances Analysis |
Maofu Liu, Yan Li, Donghong Ji, Yi Zheng |
論文 |
Ji, D. H. & Xiao, G. Z. (eds.). Chinese Lexical Semantics [C]. Berlin: Springer, 2013.
|
|
EI收錄(收錄號:20130916058292) |
27 |
Multi-Document Extractive Summarization Using Event Semantic Relation Graph Clustering |
Maofu Liu, Huijun Hu |
論文 |
International Journal of Advancements in Computing Technology |
|
EI收錄(收錄號:20125215844456) |
28 |
Social Relation Extraction Based on Chinese Wikipedia Articles |
Maofu Liu |
論文 |
Ji, D. H. & Xiao, G. Z. (eds.). Chinese Lexical Semantics [C]. Berlin: Springer, 2013. |
|
EI收錄(收錄號:20130916058290) |
29 |
Semantic Cache and Replacement Policy for XML Algebra based Query Optimization |
顧進(jìn)廣等 |
論文 |
International Journal of Computer Mathematics |
|
EI檢索 |
30 |
A Semantic Annotation Algorithm for Content-Based Recommendation |
王鈺巍等 |
論文 |
ICIE 2012 |
|
|
31 |
Publishing CLOD of Dangerous Chemicals Based on Semantic MediaWiki |
鄧海龍等 |
論文 |
中國語義網(wǎng)大會(CSWS 2013) |
|
EI檢索 |
32 |
Pharmaceutical semantic database query mechanism Based on KeyWords |
孫鵑等 |
論文 |
中國語義網(wǎng)大會(CSWS 2013) |
|
EI檢索 |
33 |
Automatic construction approach for Ontology based on medical medication guide |
陸玉婷等 |
論文 |
中國語義網(wǎng)大會(CSWS 2013) |
|
|
34 |
智能性新一代語義網(wǎng)模型:語言科學(xué)與計算機(jī)科學(xué)的深度聯(lián)姻 |
蕭國政 姬東鴻 |
論文 |
中國社會科學(xué)報,2012-09-05 |
|
|
35 |
基于詞語表示的語義生成機(jī)制新探 |
倪盛儉姬東鴻 |
論文 |
第十三界詞匯語義學(xué)國際會議
|
6000 |
|
36 |
基于實例分析的原子事件語義標(biāo)注研究 |
劉茂福姬東鴻 |
論文 |
第十三界詞匯語義學(xué)國際會議
|
6000 |
|
37 |
基于事件鏈的漢語語篇連貫資源建設(shè) |
張明堯 |
論文 |
長江學(xué)術(shù)、2013年4月 |
6400 |
|
38 |
篇章連貫:詞匯鏈、復(fù)雜網(wǎng)絡(luò)、語義場 |
張明堯等 |
會議論文 |
第十三屆詞匯語義學(xué)國際會議,2012年7月 |
5000 |
|
39 |
顯性非賓格動詞句的語義特征 |
屠愛萍 |
論文 |
長江學(xué)術(shù),2013,(2) |
5000 |
|
40 |
現(xiàn)代漢語非名詞性空語類 |
屠愛萍 |
論文 |
現(xiàn)代外語,2013,(3) |
12000 |
|
41 |
隱性形式、扣合和句位變體 |
屠愛萍 |
論文 |
漢語學(xué)習(xí),2013,(4) |
11000 |
|
42 |
“事件”的概念厘定和多維表征 |
王興隆 |
論文 |
《中文信息學(xué)報》2013可刊 |
8969 |
計算機(jī)類核心(蘇州會議論文) |
43 |
從兩版《現(xiàn)代漢語詞典》的對比看義位描寫的轉(zhuǎn)向 |
王興隆
|
論文 |
中國語文現(xiàn)代化第一屆國際會議 2012 |
6808 |
|
44 |
基于統(tǒng)計與詞匯語義特征的中文文本蘊(yùn)涵識別 |
劉茂福李 妍 顧進(jìn)廣 |
論文 |
計算機(jī)工程與設(shè)計 |
|
中文核心期刊 |
45
|
題元角色理解與英語動詞一詞多義的認(rèn)知與教學(xué) |
雙文庭 |
論文 |
武漢科技大學(xué)學(xué)報(社會科學(xué)版)2012(3) |
|
|
46 |
存現(xiàn)句的句法語義及認(rèn)知分析——以“發(fā)生”句為例 |
熊葦渡 |
論文 |
社會科學(xué)論壇、2013(6) |
5400 |
|
47 |
規(guī)則與統(tǒng)計相結(jié)合的主謂謂語句的日漢機(jī)器翻譯研究 |
熊葦渡 |
論文 |
理論月刊、2013(4) |
9000 |
CSSCI擴(kuò)展版 |
48 |
重復(fù)圖數(shù)據(jù)收縮清理策略 |
黃莉等 |
論文 |
計算機(jī)工程與應(yīng)用 |
|
EI檢索 |
49 |
基于語義和云服務(wù)的設(shè)備管理關(guān)鍵技術(shù) |
顧進(jìn)廣等 |
項目鑒定 |
|
|
結(jié)論:國內(nèi)領(lǐng)先 |
50 |
抗菌藥物指南知識的語義轉(zhuǎn)換與生成 |
顧進(jìn)廣等 |
論文 |
中國數(shù)據(jù)醫(yī)學(xué),2013.4 |
|
|
51 |
基于圖數(shù)據(jù)庫的RDF數(shù)據(jù)分布式存儲 |
項靈輝等 |
論文 |
計算機(jī)應(yīng)用與軟件 |
|
EI檢索 |
52 |
基于任務(wù)搶占與數(shù)據(jù)分區(qū)的XML多核查詢優(yōu)化 |
吳鋼等 |
論文 |
工業(yè)控制計算機(jī) |
|
EI檢索 |
53 |
基于概念特征的漢語交互類言說動詞詞義分析及同義詞群的建構(gòu) |
肖珊 |
論文 |
中文信息學(xué)報 (即將刊登) |
7800 |
|
(課題組供稿)