一、研究進展情況
主要內容:
1.研究計劃總體執(zhí)行情況及各子課題進展情況
重大項目“基于認知計算的學術論文評價理論與方法研究”,是根據(jù)計劃協(xié)同各個子課題從不側面推動整個課題研究工作的開展。立項后,各子課題按照本課題申報書的要求,分工協(xié)作,按照“現(xiàn)狀與需求分析——目標擬定——理論框架構建——評價方法創(chuàng)新——支撐性技術實現(xiàn)——示范應用與實證研究——總結完善評價理論體系”的路徑展開研究,取得了階段性的成果。
課題組對“基于認知計算的學術論文評價理論與方法研究”項目的需求進行了調研分析,構建了相關論文數(shù)據(jù)集2個,分析了學術論文關鍵詞標注規(guī)律和引文增長規(guī)律,提出了基于認知計算的學術論文評價理論框架,并就學術文本的格式化提取技術、引文抽取技術、結構功能識別技術、詞匯功能識別技術等相關支撐技術進行了研究與探索。同時,課題組已發(fā)表論文11篇,其中包括以“From Zero to One: A Perspective on Citing”為代表的外文論文5篇、以“科學論文功能單元本體設計與標引應用實驗”為代表的中文論文6篇,并在國際頂級信息學院聯(lián)年會iConference2019中發(fā)表poster 3篇,申請國家發(fā)明專利“一種PDF文件向ODF文件轉化的方法”1項,獲得軟件著作權2項,階段性成果良好,為后續(xù)研究提供了有力支撐。
至今,本課題已基本完成了各子課題研究規(guī)定的內容,研究計劃總體執(zhí)行情況及各子課題研究進展順利。其余內容,尤其是在子課題基礎上形成具有重要學術價值與應用價值的綜合性研究成果,則是下階段的主要任務。
2.調查研究及學術交流情況
2.1調查研究情況
立項以來,課題組緊密結合項目研究需要,通過文獻調研、專家訪談、實地考察等方式,對“基于認知計算的學術論文評價理論與方法研究”項目相關研究進行全面的調研,從認知計算的理論與應用、傳統(tǒng)理論與方法支撐下的學術論文評價與發(fā)展、學術文本內容研究中的認知計算應用以及學術評價研究中的認知計算應用四個方面對現(xiàn)有的國內外相關研究進行系統(tǒng)梳理,為后續(xù)的相關研究奠定了一定的基礎。
2.2學術交流情況
依托《基于認知計算的學術論文評價理論與方法研究》重大項目,本課題組積極在國內外開展學術交流;一方面,及時跟蹤本重大項目相關的最新研究進展;另一方面,積極宣傳本重大項目的研究成果,增加學術和社會影響力。
在國際學術交流方面,積極參加國際學術頂級會議,交流學術研究成果。2019年3月份,本課題組的三篇poster,分別為《A Novel Computer Vision Based Method for PDF Academic Literature Structure Understanding》、《Biomedical compound figure detection using deep convolutional neural network》和《Keyword-Citation-Keyword Network:A new method for Discipline Knowledge Structure Analysis》同時被國際信息學院聯(lián)盟年會iConference接收,三位同學赴美國參加該會議,并進行poster展示;2019年6月,重大項目首席專家陸偉組織了ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES(JCDL)會議的workshop4:Organizing Data, Information, and Knowledge in Big Data Environments,同時有一篇proposal在該workshop上進行展示。此外,本課題組有一篇長文《Author-selected Keyword Semantic Function Analysis-A Case Study of Informetrics》被17th International Conference of the International Society for Scientometrics and Informetrics接收,將于2019年9月赴意大利羅馬進行論文成果展示,同時進行學術交流。
在國內學術交流方面,課題組成員積極參加國內學術會議,同時組織和參加相關的學術研討會,對本項目的研究成果進行展示。2019年3月,陸偉在中科院武漢分院做了《基于認知計算的學術論文評價與方法》主題報告,分享了本項目在學術論文評價與方法研究中取得的研究成果。2018年3月,本課題組舉辦了“語義指紋與關系推薦學術論壇”,邀請了國內外著名研究機構和高校的多位學者進行報告和交流,本課題組程齊凱老師做了《學術文本深度挖掘:框架、技術與應用》的報告,對學術文本分析的框架進行了講解。2019年5月,本課題組舉辦了“多學科視角下的信息檢索與人機交互”專題研討會,邀請國內外多名專家學者就信息檢索與人機交互等相關主題進行報告和交流,同時陸偉在會上做了《學術文本語義挖掘及推薦》報告,介紹了本項目研究取得的成果,促進了學術交流,提高了成果的社會影響力。
3.研究中存在的主要問題與改進措施
通過整體評估發(fā)現(xiàn),盡管各個子課題研究在穩(wěn)步推進,但仍然存在一些問題。主要表現(xiàn)在:
第一,部分子課題研究的不太均衡。目前關于基于認知計算的學術論文評價理論框架構建研究較充分,而關于基于認知計算的學術論文評價方法的技術實現(xiàn)研究相對不足。
第二,課題組圍繞本項目研究發(fā)表的一系列典型論文、軟著等形式成果的影響力有待擴大,此外,基于認知計算的學術論文評價方法模型與技術的應用有待進一步深化。
下一步的研究計劃將從上述問題著手,通過加強子課題的研究,提升本課題研究的學術價值和應用價值。
二、研究成果情況
主要內容:
1.代表性成果之一:《From Zero to One: A Perspective on Citing》
成果形式:論文
完成人:黃永,步一,丁穎,陸偉
完成單位:武漢大學信息管理學院
發(fā)表期刊:《Journal of the American Society for Information Science and Technology》
發(fā)表時間:2019年1月
基本內容:
論文的被引次數(shù)已經成為評價論文質量的常用指標之一。論文的被引次數(shù)是一個隨時間而累積的結果,本研究對不同被引次數(shù)的論文(低被引,中被引,高被引)的不同階段(初始階段:0-1,后續(xù)階段:1-N)的被引時長分別進行比較分析。研究發(fā)現(xiàn),三種不同類型的論文在初始被引階段即0到1,時間長沒有明顯的差異;而在后續(xù)階段即1到N,高被引論文獲得被引的速度比中被引和低被引的論文更快,而且隨著N的增加,這個差異更加明顯。
主要觀點與學術價值:
高被引、中被引以及低被引三種不同類型的論文在初始被引階段即0到1,時間長沒有明顯的差異;而在后續(xù)階段即1到N,高被引論文獲得被引的速度比中被引和低被引的論文更快,而且隨著N的增加,這個差異更加明顯。該研究發(fā)現(xiàn),啟示學者應該盡量提高論文的可見性,使得論文更快獲得被引,從而提高論文的被引次數(shù)。
成果社會影響:
該成果已被情報學領域的頂級期刊JASIST錄用,2019年1月網絡出版至今,在ResearchGate上已經獲得66次閱讀。
2.代表性成果之二:《How do author-selected keywords function semantically in scientific manuscripts?》
成果形式:論文
完成人:陸偉,李信,劉智鋒,程齊凱
完成單位:武漢大學信息管理學院
發(fā)表期刊:《Knowledge Organization》
發(fā)表時間:錄用待發(fā)表
基本內容:
作者關鍵詞已經被廣泛應用于熱點探測、趨勢分析以及學科知識圖譜的構建。然而,這些研究很少考慮關鍵詞在學術論文中的語義功能。因此,文章提出了關鍵詞語義功能,同時構建了一個信息計量學領域關鍵詞語義功能分類框架,其中包含有研究主題、研究方法、研究對象、研究領域、數(shù)據(jù)以及其他;基于該分類框架,對Journal of Informetrics (JOI)發(fā)表論文的關鍵詞進行語義功能標注,構建了一個信息計量學領域的關鍵詞語義功能標注數(shù)據(jù)集;最后,從關鍵詞語義功能的強度、多樣性以及對稱性三個方面對關鍵詞語義功能的分布特征進行揭示。
主要觀點與學術價值:
本研究從語義層面對作者關鍵詞進行研究,提出了作者關鍵詞語義功能的概念,同時構建了一個信息計量學領域關鍵詞語義功能分類框架,為后續(xù)的相關研究提供一定的理論基礎;基于提出的分類框架,本研究以Journal of Informetrics(JOI)為例,構建了一個標準化關鍵詞語義功能標注數(shù)據(jù)集,為后續(xù)的研究提供一定的數(shù)據(jù)基礎;此外,揭示了關鍵詞語義功能的分布特征。
研究結果表明,隨著作者關鍵詞數(shù)量的增加,關鍵詞語義功能多樣性下降,而不規(guī)則性則上升;此外,研究主題和研究方法這兩類語義功能占有絕對的優(yōu)勢,而且這兩類語義功能在關鍵詞列表中有比較經常出現(xiàn)的位置,即隨著關鍵詞在列表中排序的增加,關鍵詞具有研究主題語義功能的可能性下降;而具有研究方法語義功能的可能性上升。本研究從關鍵詞語義功能視角對關鍵詞進行研究,可將其應用于細粒度的信息檢索、信息計量學、信息推薦等研究中。
成果社會影響:
該成果已被Knowledge Organization(SSCI期刊)錄用。
3.代表性成果之三:《科學論文功能單元本體設計與標引應用實驗》
成果形式:論文
完成人:王曉光,李夢琳,宋寧遠
完成單位:武漢大學信息管理學院
發(fā)表期刊:《中國圖書館學報》
發(fā)表時間:2018年07月15
基本內容:
科學論文內容本體是科學論文內容結構和語義功能的形式化和規(guī)范化知識表示,對于科學論文的深度標引和知識挖掘具有重要意義。文章系統(tǒng)梳理了已有科學論文內容表示模型和內容本體,并以功能單元理論為基礎,提出了科學論文功能單元本體的設計思路,構建了包含28個類和5種屬性在內的科學論文功能單元本體FUO。借助本體構建工具Protégé,對科學論文功能單元本體FUO進行形式化表示。借助語義標注工具GATE,利用功能單元本體FUO對論文進行初步的深度標引實驗,檢驗了該本體的可用性。
主要觀點與學術價值:
科學論文功能單元本體(FUO)的設計目標是,從語義功能角度準確定義科學論文內容組件的類型及其屬性,構建科學論文內容結構表示模型,并利用規(guī)范的本體表示技術,建立可共享和可重復使用的科學論文功能單元本體。為了更加清晰地區(qū)分內容組件及其屬性,文章首先對Zhang Lei提出的41個功能單元進行調整。功能單元類型調整原則:①將具有相似含義的類目進行合并;②排除掉含義較為模糊或適用性不強的類目;③新增類目;谝陨险{整原則,文章設計了包含12個一級類、28個二級類的功能單元本體基本模型,并對方法、討論、實驗、數(shù)據(jù)等情報價值較高的部分進行了深入劃分與界定。其次,在參考Bio-Event等模型的基礎上,設計了功能單元本體FUO的5類屬性。最后,使用Protégé5.1對本體進行了表示。
結果表明,相較于已有的修辭塊本體、篇章元素本體等,文章提出的功能單元本體FUO具備多層次、多粒度的特征,能夠更全面、細致地揭示科學論文內容組成部分的語義功能特征,能夠很好地表示科學論文內容組件的語義功能及其屬性,揭示科學論文正文各部分的語義特征,可以用于面向知識發(fā)現(xiàn)的科學論文深度語義標引,為科學論文內容本體開發(fā)奠定了基礎。
成果社會影響:
發(fā)表至今12個月,在CNKI已被下載493次,被引1次。
4.代表性成果之四:《一種PDF文件向ODF文件轉化的方法》
成果形式:專利
完成人:陸偉;于豐暢;程齊凱
完成單位:武漢大學信息管理學院
發(fā)表期刊:國家知識產權局
發(fā)表時間:2018年8月
基本內容:
本發(fā)明屬于計算機技術領域,涉及一種文件轉化方法,尤其涉及一種PDF文件向OFD文件轉化的方法。首先,輸入PDF文件;然后利用機器視覺技術對PDF文件進行版面分析,得到版面的內容分布,再解析PDF文件數(shù)據(jù),獲得該文件中的所有元素的對象,以及對象信息。然后,將對象與版面分布進行映射,定位文字、圖片、表格、公式等元素,接著利用映射之后的對象信息,將PDF的對象轉化為OFD格式的對象。最后,將OFD對象按照輸出要求進行排版,并輸出OFD文件。
主要觀點與學術價值:
本發(fā)明公開了一種PDF文件向OFD文件轉化的方法,該方法的流程示意圖所示,該方法的主要步驟包括:
步驟1:輸入PDF文件;
步驟2:利用機器視覺技術對PDF文件進行版面分析,得到內容版塊的分布;
步驟3:解析PDF文件數(shù)據(jù),獲得該文件中的所有元素的對象,以及所有對象的信息;
步驟4:將元素對象和內容版塊進行映射,并定位文字、圖片、表格、公式等元素的位置,得到PDF文件元素和內容板塊的隸屬關系;
步驟5:利用對象信息,將映射之后的PDF對象轉化為OFD格式的對象;
步驟6:將OFD對象按照輸出要求進行排版,并輸出OFD文件。
本發(fā)明能夠以較高的正確率自動將單個或批量PDF文件轉換為OFD文件,并且有效地保證了PDF文件中的圖片、表格、公式等特殊元素的正確性。降低了儲存在PDF文件中的信息的使用難度,提高了PDF文件向OFD文件的轉換效率。本發(fā)明有益效果為:采用方案后,能夠自動將單個或批量將PDF文件轉換為OFD文件,并且相較于現(xiàn)有方法,有效的保證了轉化的成功率和準確率,提高了內容的完整程度。
5.代表性成果之五:《基于詞匯功能的學術文本分析》
成果形式:主題報告
完成人:陸偉
完成單位:武漢大學信息管理學院
會議名稱:“多學科視角下的信息檢索與人機交互”專題研討會
會議時間:2019年5月
基本內容:
在學術大數(shù)據(jù)時代,文獻數(shù)量快速增長,存量巨大;與學者的知識需求更加多樣化、細粒度之間的矛盾越來越突出,因此有必要對學術文本進行深度語義分析,以更好地滿足學者的知識需求。本報告中,首先,提出了一個包含領域無關和領域相關詞匯功能的詞匯功能框架;其次,采用基于規(guī)則的方法半自動構建了詞匯功能識別的訓練集;接著,采用SVM、CRF、CNN以及RNN等方法對詞匯功能進行自動識別,其中問題識別準確率達到0.87,方法識別準確率達到0.91;最后,基于上述的研究成果,構建了一個CS-LAS系統(tǒng),該系統(tǒng)具有細粒度的問題與方法檢索、細粒度的研究主題與研究趨勢探測等功能。
主要觀點與學術價值:
本報告中提出了詞匯功能框架以及詞匯功能自動識別的機器學習方法;最后,構建了一個具有細粒度檢索與熱點探測等功能的系統(tǒng)。本研究對學術文本深度語義挖掘進行探索,能夠更好地滿足學者多樣化、細粒度的知識需求。
成果社會影響:
在“多學科視角下的信息檢索與人機交互”專題研討會上做了報告,提升了重大項目研究成果的影響力。
三、下一步研究計劃
在進一步推動各個子課題研究的同時,著力于以下工作:
(1)構建基于認知計算的學術論文多維融合加權評價模型
以內容和傳播認知計算為基礎,以學術論文質量評價為核心,以現(xiàn)實用戶需求滿足為目標,設計科學化、精準化、綜合化的學術論文評價指標體系和用戶需求滿足模型;在已有的研究基礎之上,構建基于認知計算的學術論文多維融合加權評價模型,實現(xiàn)對學術論文在細粒度層面的科學化、綜合化評價。
(2)探索基于認知計算的學術論文評價理論與方法的創(chuàng)新路徑
以理論研究成果為基礎,根據(jù)學術論文評價過程中各主體的關系,用相關分析法分析多方面要素的影響力,尋求學術論文評價理論與方法的創(chuàng)新路徑,實現(xiàn)評價技術創(chuàng)新,包括基于文本內容理解的學術論文評價技術、基于功能分析的學術論文評價技術、基于視覺理解的富媒體論文理解與評價技術以及基于傳播認知計算的學術論文評價技術等內容。
(3)推動基于認知計算的學術論文評價技術理論的研究和應用
以服務實際工作為目標,研究基于認知計算的學術論文評價技術的具體實現(xiàn)策略,構建示范應用,并重點探索如何將基于認知計算的評價方法同傳統(tǒng)方法結合,構建兼具實用性和創(chuàng)新性的學術論文評價應用。
課題組供稿