一、研究進展情況(可另加附頁)
主要內(nèi)容:①研究計劃總體執(zhí)行情況及各子課題進展情況;②調(diào)查研究及學術交流情況(調(diào)研數(shù)據(jù)整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等);③成果宣傳推介情況(成果發(fā)布會、《工作簡報》報送情況、國家社科基金?陡寮安捎们闆r等);④研究中存在的主要問題、改進措施,研究心得、意見建議;⑤其他需要說明的問題。
① 研究計劃總體執(zhí)行情況及各子課題進展情況
本項目于2012年12月28日獲批立項。項目執(zhí)行時間是2013年1月 — 2017年12月。本項目的計劃與時間安排如下:
到2014年6月底,項目實施一年半,執(zhí)行時間還不到項目總計劃時間的三分之一。我們參照項目的上述計劃進度,順利推進項目,開展相關研究。
總體而言,在過去的一年半時間里,我們完成了相應時間內(nèi)預期的任務:知識庫的構建取得階段性進展,制定了知識表示框架,填寫了部分詞匯的知識;在多級語料庫的加工與挖掘方面,完成了規(guī)范的制定和試標工作,為后續(xù)規(guī);募庸ご蛳铝肆己玫幕A;設計了眾包平臺的總體框架,以語篇的指代關系標注為例,在眾包平臺上發(fā)布標注任務;目前已通過使用平臺開始指代關系的標注,并得到一定量的寶貴數(shù)據(jù);在多視角語義分析方面也取得了一系列的成果,縮略語識別、情感分析、實體關系分析等均取得研究進展。
迄今為止,我們已經(jīng)發(fā)表學術論文23篇,接受待發(fā)表的論文7篇,共計30篇,已經(jīng)達到了計劃的全部論文數(shù),論文均標有本項目資助號。其中有多篇論文發(fā)表于計算語言學領域的頂級國際會議。此外,還申請專利1項。可以說,本項目圓滿完成了相應時期的任務。
下面分別介紹各子課題的進展情況。
子課題1:基于生成詞庫理論和論元結構理論的語義知識體系研究
(1) 已經(jīng)制定漢語名詞的物性結構描寫和標注體系,并通過試描述和組內(nèi)多次討論交流,對規(guī)范作了反復調(diào)整和完善。
(2) 以規(guī)范為依據(jù)描述了3000個左右的名詞的物性結構,共計200多萬字。對于高頻名詞的物性結構標注已經(jīng)基本完成,初步構造了一個面對網(wǎng)絡文本分析的語言知識庫。
(3) 建立了一套漢語動詞、形容詞的論元結構描寫體系和語義角色的標注體系和規(guī)范,并且在北京大學現(xiàn)代漢語句法樹庫的語料上標注了10多萬字,正在配備相關的索引軟件。
(4) 研制了一個在線漢語謂詞語義知識庫,包括為15,000多個常用動詞和形容詞的每一個義項(約40,000個條目)編制語義角色框架文檔,內(nèi)容包括:詞形、拼音、詞性、釋義、語義角色及其定義、配位方式及其實例、真實文本中的例子等。
子課題2:網(wǎng)絡文本的多級加工與語言知識挖掘研究
(1) 制定了漢語語料標注的系列規(guī)范,包括“多視圖的漢語樹庫標注規(guī)范”,“漢語句際關系的標注體系”,“漢語口語語料庫對話行為標注體系”等。
(2) 開發(fā)了多級多視圖語料標注的系列計算機輔助軟件,并通過了試標注的檢驗,達到了較好的效果。
(3) 為了分析網(wǎng)絡語言的特點,標注了部分網(wǎng)絡微博語料和口語對話語料中的依存關系和對話行為。
(4) 研究了網(wǎng)絡文本中的信息挖掘方法和對話語料中的對話行為分析方法。為多視角的語義分析提供了依據(jù)。
子課題3:基于群體智慧的知識資源加工技術及眾包平臺研究
(1) 設計了眾包平臺的基本構建,在參與中包任務的用戶使用層面,設計實現(xiàn)了展示模塊,語料(知識)加工模塊,候選答案推薦模塊。
(2) 為檢查用戶對語料(知識)加工的質量,設計了參與用戶的行為跟蹤記錄模塊,通過日志形式,動態(tài)記錄用戶的行為軌跡。
(3) 利用眾包平臺,發(fā)布了單數(shù)指代詞的指代關系標注任務。并已有3人參與指代關系標注的任務,目前通過雙盲重復標注的方式已完成了2025篇文章的標注,同時也獲得了相關行為的日志信息,我們已對標注情況進行初步分析,以進一步完善平臺。
(4) 利用眾包平臺,正在設計實現(xiàn)句間關系標注的任務,設計工作已基本完成,很快便可發(fā)布加工任務。
子課題4:知識與統(tǒng)計相結合的多視角文本語義分析技術研究
(1) 研究了微博語料的分詞方法。不同于規(guī)范的文本,微博的表達十分隨意,新詞頻現(xiàn),用詞不囿于通常的規(guī)律。但微博的標點句短,非漢字的符號(包括標點)多,利用這一特點,實現(xiàn)了微博分詞模塊。
(2) 研究了跨語言的情感分析方法,特別是,研究了利用英語的情感詞表自動獲取漢語情感詞的方法。這對于情感語義的分析將是非常重要的基礎資源。
(3) 研究了漢語縮略語的分析和預測方法。在網(wǎng)絡上,存在大量的縮略語現(xiàn)象。如何預測縮略語,建立縮略語與完整形式之間的關系,是分析理解縮略語的基礎。
(4) 研究了中文的指代方法,包括文本內(nèi)的指代關系和跨文本的同指關系。在文本內(nèi)的指代關系分析方面,我們重點研究了漢語零型指代的消解問題,在跨文本的指代消解中,重點研究了實體鏈接問題。
② 調(diào)查研究及學術交流情況(調(diào)研數(shù)據(jù)整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等)
過去的一年半時間正好是項目的開始期,按照研究的計劃安排,調(diào)查研究是本時期最重要的任務。為此,我們開展了如下工作:
(1) 進行了大量的數(shù)據(jù)收集和分析:通過自動采集方式爬取了新浪微博、口語對話、博客、網(wǎng)上新聞等數(shù)據(jù),同時,也收集了一定量的語音-文字轉換的結果數(shù)據(jù)。本項目收集上述數(shù)據(jù)的主要原因是,微博是典型的網(wǎng)上語言,而且是最具代表性的非規(guī)范語言特征。而口語對話則在一定程度上代表了聊天語言現(xiàn)象(包括即時通信),博客是一種相對規(guī)范的語言表示。收集語音-文字轉換數(shù)據(jù)主要原因是隨著移動互聯(lián)網(wǎng)的發(fā)展,語音將成為重要的信息表示形式。語音的處理通常需要先轉換為文本信息,以進一步分析語義信息,這就需要分析相關材料。
(2) 收集查閱了大量的文獻資料。為了便于本項目更有效的開展,我們對國內(nèi)外的研究進行了調(diào)研,重點查閱并收集了近幾年來相關研究的文獻資料,包括社交媒體的語言處理、不規(guī)范語言的處理方法、相關的語言知識庫及語料庫加工方法和加工平臺的研究狀況。查閱文獻資料100多篇(部)。為本項目的優(yōu)化實施起到了重要作用。
(3) 學術會議與學術交流方面,項目各子課題多次進行了小組討論。參加了一系列的學術會議,包括2013年在保加利亞舉行的國際頂級計算語言學會議ACL,2013年在美國舉行的國際權威計算語言學會議EMNLP,2013年在日本舉行的IJNLP會議,以及在新加坡、臺灣等地舉辦的重要語言學國際學術會議和計算語言學國際學術會議。在國內(nèi),參加了多個重要會議,包括2013年全國計算語言學,詞匯語義學會以,中文計算會議等,項目首席專家還應邀在2013年的第14屆漢語詞匯語義學會議作特邀報告,并應邀參與哈佛大學中文文本挖掘的研討會。此外,還與臺灣元智大學、香港理工大學合作開始了相關的合作研究。
③ 成果宣傳推介情況
在項目實施中,我們在多個不同場合介紹我們的項目情況。2013年在鄭州召開的漢語詞匯語義學會以(CLSW2013)上,項目首席專家王厚峰作為會議的特邀報告人(Keynote Speaker),重點介紹了本項目的情況和研究成果,而后在洛陽外國語學院、黑龍江大學、以及應邀訪問美國哈佛大學時,王厚峰均分別介紹了本項目的研究成果;在2013年6月到臺灣參加會議期間,也到交通大學介紹了本項目的研究情況。此外,我們也在計算語言學有影響的國際會議、國內(nèi)會議報告相關的成果,起到了很好的推介作用。
當然,在這一年半的時間里,我們主要注意到了向本領域學術期刊和學術會議投稿,今后,我們將注意向國家社科基金?耐陡濉
④ 研究中存在的主要問題、改進措施,研究心得、意見建議
本項研究我們基本上按照計劃進行,并針對研究中的問題按課題進行研討,總的來看,我們按正常方式推進。目前暫沒有特別的建議。
二、研究成果情況
①代表性成果簡介
我們圍繞項目任務開展了多方面的研究,取得了一系列的成果,下面僅介紹幾項代表性的成果。
(1) 建立了名詞的物性結構體系
根據(jù)Pustejovsky (1995、2006)的物性結構描寫框架,結合漢語的實際情況,構建了一套漢語名詞的物性描寫體系。說明如下:
(1)形式(formal,簡寫為FAL):名詞的分類屬性、語義類型和本體層級特征。比如,“石頭”是“有形物質、自然物”;
(2)構成(constitutive,簡寫為CON):名詞所指的事物的結構屬性,包括:構成狀態(tài)、組成成分、在更大的范圍內(nèi)構成或組成哪些事物、跟其他事物的關系,也包括物體的大。╩agnitude)、形狀(shape)、維度(dimensionality)、顏色(color)和方位(orientation),等等。比如,“石頭”的構成是“礦物;可以根據(jù)下列顏色、形狀、作用等屬性進行分類:彩色、黑色、紅色、褐色、白色、圓形、柱形、棱角分明、保健,等等”;
(3)單位(unite,簡寫為UNI):名詞所指事物的計量單位,也即跟名詞相應的量詞;
(4)評價(evaluation,簡寫為EVA):對名詞所指事物的主觀評價、情感色彩。比如,對“水”的評價有“清、清澈、清潔、臟、渾、渾濁”;
(5)施成(agentive,簡寫為AGE):名詞所指的事物是怎樣形成的,如創(chuàng)造、天然存在、因果關系等。比如,“椅子”的施成是“制作、做、加工、編制”等等;
(6)材料(material,簡寫為MAT):創(chuàng)造名詞所指的事物所用的材料。比如,“椅子”的材料是“木頭、竹子、藤子、木、竹、藤、鋼、鐵、塑料、硬板”等等;
(7)功用(telic,簡寫為TEL):名詞所指的事物的用途和功能。比如,“椅子”的功用是“坐”等等;
(8)行為(action,簡寫為ACT):名詞所指的事物的慣常性的動作、行為、活動。比如,“水”的行為是“流、流動、奔騰、翻滾、滴、淌、流淌”等等;
(9)處置(handle,簡寫為HAN):人或其他事物對名詞所指的事物的慣常性的動作、行為、影響。比如,對“水”的處置是“打、舀、取、蓄、灑、放、排、倒、噴、潑、玩兒”等等。
目前,已經(jīng)完成了3000個名詞。下面僅以“商店”為例作說明:
商店 shāngdiàn〈名詞,中性〉在室內(nèi)出售商品的場所。
〔1〕物性角色:
形式FOR:機構、場所、人造物;
構成CON:可以根據(jù)所出售的東西類型進行分類,如:百貨、五金、音樂器材、工藝品、土特產(chǎn)、綜合,等等;也可以根據(jù)其類型、等級、地區(qū)等進行分類,如:大型、新型、高檔、高級、連鎖、水上、地下、社區(qū),等等。
單位UNI:個體:個、家、座,等等;集合:批、部分、種、類、排,等等;不定:各、每個、些,等等;
評價EVA:大、小、豪華、信譽良好、鱗次櫛比,等等;
施成AGE:開辦、興建、蓋、建造,等等;
行為ACT:賣飲料、掛出條幅、開門、開始工作、舉辦、開設、開張、營業(yè)、出臺促銷手段
功用TEL:出售商品,等等;
處置HAN:裝飾、拆除、走進、出入、洗劫、沖擊、哄搶,等等
定位ORI:里、從、中、去、在、附近、到、向、通往、位于,等等。
〔2〕句法格式:
S1:CON + __
如:音樂器材~| 電腦~ | 工藝美術~ | 大型~ | 新型~ | 工藝品~ | 百貨~ | 高級~ | 普通~ | 五金~| 土特產(chǎn)~| 食品~ | 春節(jié)用品~ | 社區(qū)~ | 服裝~ | 網(wǎng)絡~ | 化妝品~ | 零售~ | 移動電話~ | 兒童~ | NBA~ | 化學品~ | 建材~ | 煙酒~ | 專業(yè)~ | 珠寶首飾~ | 連鎖~ | 批發(fā)~ | 個體~ | 計算機~
S2:Num + UNI + __
如:兩個~ | 許多~ |各種~ | 一家~ | 一座~| 一些~ | 一(大)批~ | 一排~
S3:EVA +(的+)__
如:大~ | 小~ | 鱗次櫛比的~ | 信譽良好~ | 豪華~
S4:AGE + __
如:開辦~ | 蓋~ | 建造~
S5: __ + ACT
如:~賣飲料 | ~掛出條幅 | ~開門 | ~開始工作 | ~開設 | ~開張 | ~營業(yè) | ~開放 | ~出臺促銷手段 | ~舉辦 | ~打烊 | ~配備 | ~關閉 | ~停業(yè)
S6:__ + TEL
如:~出售商品
S7:HAN + __
如:裝飾~ | 拆除~ | 進入~ | 走進~ | 出入~ | 洗劫~ | 沖擊~ | 檢查~ | 焚燒~ | 打砸~ | 哄搶~ | 看守~
S8:ORI + __ / __ + ORI
如:~里 | ~中 | 在~ |~內(nèi) | 到~ | 從~| ~附近 | 往~ | 去~
名詞物性結構有利于信息處理中文本蘊涵推理計算,尤其對于一些名詞結構中隱含謂詞的還原有著重要的意義。
(2) 制定了多視圖的漢語樹庫標注規(guī)范并實現(xiàn)了樹庫輔助標注工具
提出一套多視圖的漢語樹庫體系,這套體系以依存視圖為核心,在句法層面上僅僅標注中心語和語法角色兩類信息,然后通過設計一套層次生成程序和結構功能映射規(guī)則和算法推導出層次信息和短語結構功能信息,從而自動轉換出相應的短語結構樹;在語義層面上,通過對部分語法標簽的細化進一步標注語義角色標簽,并通過虛詞的格傳遞來保證語法依存和語義依存在中心語上的一致性。最終生成的多視圖樹庫含有語法依存視圖、短語結構視圖和語義依存視圖等三個視圖。如下是依存視圖的示例:
目前已有的句法結構的語料基本都是單一地針對一種句法體系,如短語結構或依存結構,不能滿足實際應用的需求。我們構建多視圖的樹庫,有助于實際使用者根據(jù)需求選擇不同視圖,或同時使用不同視圖的信息。
為了進行了多視圖樹庫構建的工作,我們開發(fā)了一套支持多視圖樹庫標注的工具,該工具除基本標注功能外,還包含人機互動校對和與語法詞典交叉驗證的功能。用戶可以方便地添加、刪除依存弧,修改依存標簽、檢索特定標簽等。下圖是操作界面。
(3) 漢語句際關系的標注體系
提出了漢語復句層次上句際層級結構和邏輯關系的語料標注體系。結構關聯(lián)方面主要借鑒了英語RST理論,語義關聯(lián)方面主要借鑒了英語的PDTB篇章樹庫。小句之間通過各種語義關系的連接而形成一棵完整的層級結構樹。提出了漢語句際的邏輯關系類型,這是漢語篇章分析的基礎。體系如下表所示:
第1層:CLASS
第2層:TYPE
第3層:SUBTYPE
聯(lián)合關系
(multi-nuclear)
并列(conjunction)
[CONJ]
○1等立(coordinate) [COOR]
○2時序(temporal) [TEMP]
○3選擇(alternative) [ALT]
○4遞進(progression) [PROG]
○5順承(succession) [SUCC]
主從關系
(single-nuclear)
對比(comparison)
[COMP]
○6轉折(contrast) [CONT]
○7讓步(concession) [CONC]
推論(inference)
[INF]
○8因果(cause) [CAUS]
○9結果(result) [RESU]
○10目的(purpose) [PURP]
條件(condition)
[CON]
○11假設(hypothetical) [HYP]
○12條件(condition) [COND]
總分(specification)
[SPE]
○13解證(explanation) [EXPL]
○14分述(list) [LIST]
分總(summary)
[SUM]
○15總括(generalization) [GENE]
(4) 口語對話語料中對話行為的標注規(guī)范
對話行為(dialog act)指在對話中(dialog)言談者的行為意圖。自動分析對話行為可以幫助識別言談者的意圖、幫助構建對話模型、提升口語機器翻譯系統(tǒng)的性能等。本項目第一次構建了漢語領域完整的對話行為標簽集。首先,對一個語句進行言語切分(utterance segmentation),明確標示出言語的界限;然后,每個言語片段標示出一個明確的、惟一的對話行為標簽。
Tag (Abbr.)
Description
Example
Statement
(S)
State a belief or an event
陳述一個信念或一個事件
我接下來圖片看一下啊先
Request
(R)
Express a speaker’s desire that the hearer do something
期望聽者做出一個動作或某種響應
就是這個圖片 請接收一下
Open-question
(Q)
A question that can not be answered with only “yes” or “no”
不能單純用“是”和“否”來回答的問句
產(chǎn)生費用怎么算?
Yes-No-question
(QYN)
A closed question which can be answered by either a “yes” or “no”
是非問句
這些圖片,你是從gettyimages上面找的么?
Opinion
(O)
(B)
Express opinions or unsatisfactory towards something or some services
對事情或服務發(fā)表評價或發(fā)出抱怨
那么貴?
Yes-answer
(AY)
A positive answer to a Yes-no-question
是非問句的肯定回答
對的
No-answer
(AN)
A negative answer to a Yes-no-question
是非問句的否定回答
不是
Answer
(AQ)
An answer to an open-question
開放問句的回答
咱們的圖片按照授權方式不同,分了2種
Response-ack
(RA)
Confirm that the previous request was received/accepted
對上一句需求性言語作出響應
好的
Statement-ack
(SA)
Confirm that the previous statement was received/accepted
對上一句陳述作出響應
client:抬頭 北京鼎尚利合餐飲管理有限公司
server:好的!收到!
Explain-why
(EW)
Explain further the reason of the previous utterance
對上一句言語進一步解釋原因
client:手機和直郵能改嗎?
server:這個修改不了
server:用途由內(nèi)部系統(tǒng)生成
Conversational opening
(CO)
Greetings and other ways of starting a conversation
開始一個對話
你好
Conversational closing
(CC)
Various ways of ending a conversation
結束一個對話
Bye Bye
Conversational continuer
(CT)
Various ways of continuing a conversation
延續(xù)一個對話
呵呵
Thanks
(TH)
Express appreciation and thanks
表示感謝等禮貌用語
麻煩了,謝謝
Downplayer
(D)
A backwards-linking label often used after THANKS to down play the contribution
對感謝用語作出禮貌性的回應
不客氣
Confirmation
(CF)
Verify or confirm a previous information
對上一句言語信息進一步確認
Server:大概從1000-3000不等。
Server:圖片價格大概1000-3000/張不等。
Entity
(EN)
Using non-verbal entity to convey information
用不成句的實體詞語傳輸信息
菲爾?米克爾森
Cut
(Cut)
The first part that constitutes a complete utterance
被切斷的一個言語的前半部分
server:咱們那張圖呀<CUT>
server:定下來了不哈?<QYN>
Chat
(CHAT)
Chat unrelated to business
完全與業(yè)務無關的閑聊
Uncertainty
(U)
Uncertain information
不確定的信息
(5) 設計實現(xiàn)了眾包平臺,并發(fā)布了單數(shù)人稱代詞的標注任務
為了便于知識資源的加工,我們開發(fā)了一個眾包平臺,界面如下所示:
基本框架如下:
基于眾包平臺發(fā)布了單數(shù)人稱代詞的指代關系標注。見如下界面:
通過眾包模式(Crowdsourcing)建設大規(guī)模的語料庫,可以讓大量的非專業(yè)人員參與語料庫標注的工作,這有助于降低加工成本,提高加工效率。
(5) 設計實現(xiàn)了面向網(wǎng)絡短文本的漢語切詞模塊
網(wǎng)絡語言超出了通常規(guī)范語言的很多限制,使得計算機處理變得十分困難。而計算機分析中文的第一步通常是切詞。一般切詞工具在新聞文本上可以達到95%的F 值,在微博上則只有大約82% 。為此,我們特別研究了面向網(wǎng)絡短文本的漢語切詞方法,特別是針對微博的切詞方法。
現(xiàn)有的切詞方法大都使用有指導的序列標注模型,如CRF;舅枷胧菍γ總漢字賦予一個標記,如,某個字是一個詞的開始字(標B)或者不是一個詞的開始字(標N)。已有的研究表明,有指導方法得到的切詞效果有著明顯的優(yōu)勢。但是,有指導的方法需要大量的有標訓練數(shù)據(jù),而構建有標訓練數(shù)據(jù)既費時又費力。如何充分利用現(xiàn)有數(shù)據(jù)的特點便成為一個重要的問題。通過觀察,我們發(fā)現(xiàn),與一般的新聞文本相比,微博數(shù)據(jù)有明顯的自然標記信息。下表是我們對一般新聞和微博中各類符號分布統(tǒng)計的比較值:
文本類型
漢字
英文字
數(shù)字
標點符號
一般新聞
85.7%
0.6%
0.7%
13%
微博
66.3%
11.8%
2.6%
19.3%
顯然,微博中的非漢字比例大幅上升,比一般新聞的非漢字比例增加一倍以上。對于漢語分詞而言,英文字母,數(shù)字以及標點符號都是自然的斷詞符號:自然標記符后面的漢字是詞的開始字(B),同樣,自然標記前面的一個漢字則是詞的末尾字。可以充分利用這些自然標注改進網(wǎng)絡短文本的切詞處理。我們基于上述觀察,自動獲得了大量的特殊標注信息,并利用這些信息設計了切詞模塊,實驗表明,我們所提方法與已有的方法相比,F(xiàn)值有顯著提升,達到了 87.5%。
注:2010年立項的重大項目主要填寫2012年6月以來的研究成果情況。
序號 |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時間 |
字數(shù) |
轉載、引用、獲獎等情況 |
1 |
采用無標注語料的動詞和形容詞主觀性評級 |
徐戈,蒙新泛,王厚峰 |
論文 |
軟件學報,2013(5) |
1.5萬字 |
|
2 |
The Acquisition of Chinese Ergative Verbs and the Verification of Relevant Rules in Semantic Role Labeling |
汪夢翔等 |
英文 論文 |
CLSW 2013, LNAI 8229, Springer-Verlag Berlin Heidelberg |
|
|
3 |
Improving ChineseWord Segmentation on Micro-blog Using Rich Punctuations |
張龍凱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
4 |
Learning Entity Representation for Entity Disambiguation |
何正焱等 |
英文論文 |
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 2013 |
|
|
5 |
“對不起”話語標簽的形成及功能 |
汪夢翔等 |
論文 |
湖北社會科學,2013(8) |
7500 |
|
6 |
Judgment, Extraction and Selective Restriction of Chinese Eventive Verb |
汪夢翔等 |
英文 論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) IEEE Computer Society |
|
|
7 |
Exploiting Hierarchical Discourse Structure for Review Sentiment Analysis |
Fei Wang, Yunfang Wu |
英文論文 |
Proceedings of 2013 International Conference on Asia Language Processing (IALP 2013) |
|
|
8 |
基于多步聚類的漢語命名實體識別和歧義消解 |
李廣一,王厚峰 |
論文 |
中文信息學報,2013(5) |
1萬字 |
|
9 |
Generalized Abbreviation Prediction with Negative Full Forms and Its Application on Improving Chinese Web Search |
Xu Sun, Wenjie Li, Fanqi Meng, Houfeng Wang |
英文論文 |
International Joint Conference on Natural Language Processing, Oct. 2013 |
|
|
10 |
Exploring Representations from Unlabeled Data with Co-training for Chinese Word Segmentation |
張龍凱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
11 |
Efficient Collective Entity Linking with Stacking |
何正焱等 |
英文論文 |
Proceedings of the EMNLP2013,Oct.2013 |
|
|
12 |
Chinese Discourse Relation Recognition Using Parallel Corpus |
Yifeng Xu, Yunfang Wu |
英文論文 |
9th International Conference on Computational Intelligence and Security |
|
|
13 |
基于生成詞庫論和論元結構理論的語義知識體系研究 |
袁毓林
|
論文 |
中文信息學報,2013(6) |
1.2萬 |
|
14 |
基于中文維基百科的詞語語義相關度計算 |
萬富強,吳云芳 |
論文 |
中文信息學報,2013(6) |
1.0萬 |
|
15 |
社交網(wǎng)絡中的社團結構挖掘 |
范超,王厚峰 |
論文 |
中文信息學報,2014(1) |
1.2萬 |
|
16 |
漢語詞類劃分應重視“排他法” |
周韌 |
論文 |
漢語學習,2014(1) |
1.4萬 |
|
17 |
也談與“的”字結構有關的謂詞隱含 |
宋作艷 |
論文 |
漢語學習,2014(1) |
1.2萬 |
|
18 |
基于句式結構的漢語圖解析句法設計 |
彭煒明等 |
論文 |
計算機工程與應用,2014(3) |
1.2萬字 |
|
19 |
現(xiàn)代漢語“對象格”自動識別研究 |
汪夢翔等 |
論文 |
計算機工程與應用,2014(8) |
1.2萬字 |
|
20 |
中文信息處理的詞法問題 |
彭煒明等 |
論文 |
中文信息學報,2014(2) |
1.2萬字 |
|
21 |
股市市場情感詞表的自動挖掘與構建 |
王菲, 吳云芳 |
論文 |
2014漢語詞匯語義學研討會議(CLSW2014) |
1.0萬字 |
|
22 |
基于序列模式的應答需求句識別 |
徐藝峰, 吳云芳 |
論文 |
2014漢語詞匯語義學研討會議(CLSW2014) |
|
|
23 |
The Processing of Dummy Verbs in Semantic Role Labeling |
汪夢翔等 |
英文 論文 |
CLSW 2014 將在LNAI Springer-Verlag Berlin Heidelberg出版 |
|
|
24 |
基于依存語法構建多視圖漢語樹庫 |
邱立坤、金澎、王厚峰 |
論文 |
中文信息學報 |
10000 |
(已錄用) |
25 |
Collaborative Topic Regression with Multiple Graphs Factorization for Recommendation in Social Media |
Qing Zhang, Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
26 |
Building a Multi-view Chinese Treebank |
Likun Qiu, Yue Zhang, Peng Jin and Houfeng Wang |
英文論文 |
Proceedings of the 25th International Conference on Computational Linguistics |
|
(已錄用) |
27 |
“把”字句的自動釋義與句式變換研究 |
王璐璐 孫薇薇 袁毓林 |
論文 |
計算機工程與應用 |
1.3萬字 |
(已錄用) |
28 |
基于規(guī)則的漢語名名組合的自動釋義研究 |
魏雪、袁毓林 |
論文 |
中文信息學報 |
1.3萬字 |
(已錄用),擬在2014(3)發(fā)表 |
29 |
共指消解研究方法綜述 |
宋洋,王厚峰 |
論文 |
中文信息學報 |
1.5萬字 |
(已錄用) |
30 |
Feature-Frequency-Adaptive Online Trainingfor Fast and Accurate Natural Language Processing |
Xu Sun, Wenjie Li, Houfeng Wang, Qin Lu |
英文論文 |
Computational Linguistics |
|
(已錄用,在線版已發(fā):http://www. mitpressjournals. org/doi/pdf/10.1162/ COLI_a_00193) |
31 |
一種基于文檔詞匯特征變化的突發(fā)事件檢測方法 |
王厚峰, 張龍凱 |
專利 |
中華人民共和國知識產(chǎn)權局 |
|
(已申報) |
課題組供稿