一、研究進(jìn)展情況
自2013以來(lái),國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“云計(jì)算環(huán)境下的信息資源集成與服務(wù)研究”在首席專家、咨詢專家、各子課題負(fù)責(zé)人及全體項(xiàng)目組成員的共同努力下,按項(xiàng)目計(jì)劃順利完成了預(yù)期研究任務(wù)和項(xiàng)目管理目標(biāo)。
1.科學(xué)研究工作
1.1云計(jì)算環(huán)境下的信息資源集成與服務(wù)的系統(tǒng)框架(子課題1)
完成了理論梳理和需求分析的調(diào)研。對(duì)于信息存儲(chǔ)模塊,基本完成了基于Hadoop和NoSQL數(shù)據(jù)庫(kù)的信息資源集成與服務(wù)平臺(tái)的構(gòu)架設(shè)計(jì)和搭建,主要包括平臺(tái)基礎(chǔ)架構(gòu)的建設(shè)。對(duì)于信息集成模塊,完成了數(shù)據(jù)表示格式和元數(shù)據(jù)標(biāo)準(zhǔn)文檔的制定、使用信息檢索、數(shù)據(jù)集成等方法進(jìn)行數(shù)據(jù)導(dǎo)入、整合等工作;驹O(shè)計(jì)完成了API調(diào)用標(biāo)準(zhǔn)。主要進(jìn)展如下:
(1)提出了一種基于云計(jì)算環(huán)境下的Hadoop的索引創(chuàng)建方法及其索引方法,其分別建立了基于文件的索引、基于數(shù)據(jù)塊的索引以及基于記錄的索引的三級(jí)索引機(jī)制,在進(jìn)行數(shù)據(jù)讀取時(shí),根據(jù)所述索引信息,對(duì)所訴輸入分片進(jìn)行逐層過(guò)濾,使得最終查詢結(jié)果可以直接跳過(guò)無(wú)用的數(shù)據(jù)而執(zhí)行讀取動(dòng)作,本發(fā)明避免了Hadoop讀取無(wú)用數(shù)據(jù),提高了海量數(shù)據(jù)的處理效率。該成果已提交專利申請(qǐng);贖adoop的索引創(chuàng)建方式及其索引方法(申請(qǐng)?zhí)枺?01310302669.1)
(2)設(shè)計(jì)了基于云計(jì)算環(huán)境下的海量文本數(shù)據(jù)的一種相似度衡量系統(tǒng),系統(tǒng)利用基于語(yǔ)義規(guī)則的擴(kuò)展框架來(lái)衡量文本信息的相似度。具體的,本系統(tǒng)包括一個(gè)基于語(yǔ)義規(guī)則的擴(kuò)展框架。在此框架內(nèi),又提出了兩種具體的擴(kuò)展模塊:全擴(kuò)展和選擇擴(kuò)展。前者將全部可用語(yǔ)義規(guī)則用于擴(kuò)展字符串,后者結(jié)合了全擴(kuò)展和貪心策略,給出了一種更加有效的擴(kuò)展方法。該成果已提交專利申請(qǐng)。一種基于海量文本數(shù)據(jù)的相似度衡量辦法(申請(qǐng)?zhí)枺?01310335123.6)
(3)從基于云計(jì)算環(huán)境下的數(shù)據(jù)管理的角度上回顧了大數(shù)據(jù)時(shí)代所面臨的挑戰(zhàn),重點(diǎn)討論了大數(shù)據(jù)的多樣性,大數(shù)據(jù)的壓縮,大數(shù)據(jù)的集成與清洗,大數(shù)據(jù)的索引與查詢,以及大數(shù)據(jù)分析和挖掘。該調(diào)查與研究給出了一個(gè)以大數(shù)據(jù)為導(dǎo)向的研究和問(wèn)題的簡(jiǎn)要概述。研究成果已被2013 Frontiers of Computer Science收錄 (Jinchuan Chen, Yueguo Chen, Xiaoyong Du, Cuiping Li, Jiaheng Lu, Suyun Zhao, Xuan Zhou). Big data challenge: a data management perspective.Frontiers of Computer Science. p157-164 (SCI indexing)
1.2云計(jì)算環(huán)境下的信息資源存儲(chǔ)和組織模式研究(子課題2)
為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代信息資源過(guò)載的問(wèn)題,經(jīng)常采用推薦的手段將信息資源進(jìn)行有效過(guò)濾和組織,進(jìn)而為其上的知識(shí)服務(wù)提供支持。目前通常使用協(xié)同過(guò)濾的方法計(jì)算用戶或項(xiàng)目之間的相似度,這種方法存在一定的缺陷:比如評(píng)分矩陣稀疏、冷啟動(dòng)等問(wèn)題。為此,本項(xiàng)目使用帶權(quán)重的、基于Map-Reduce框架的Simrank并行方法計(jì)算對(duì)象之間的相似度。在此基礎(chǔ)上,提出了兩種并行實(shí)現(xiàn)算法,一種是初始的迭代方法的并行化,另一種是基于矩陣乘法的并行化。實(shí)驗(yàn)證明了新的推薦算法比已有協(xié)同過(guò)濾具有更好的效果。代表性成果為:Lina Li, Cuiping Li, Hong Chen, Xiaoyong Du.MapReduce-Based SimRank Computation and Its Application in Social Recommender System.IEEE Bigdata Congress。
1.3 云計(jì)算環(huán)境下的信息資源集成方法研究(子課題3)
主要以知識(shí)和電子文件為典型信息資源類型,重點(diǎn)進(jìn)行了對(duì)信息資源集成基礎(chǔ)理論,包括基本理念、主要需求和基本策略的研究,為進(jìn)一步提出云計(jì)算環(huán)境下的信息資源集成方法奠定了較好的基礎(chǔ)。主要進(jìn)展如下:
(1)提出了一種支持協(xié)同創(chuàng)新體能力構(gòu)建的知識(shí)管理策略,探討了協(xié)同創(chuàng)新體能力構(gòu)建(Collaborative Innovation Community Capacity Building ,CICCB)所需的知識(shí)集成方法,明確了知識(shí)集成的模式與策略。相關(guān)研究成果在第10屆智力資本、知識(shí)管理和學(xué)習(xí)型組織國(guó)際會(huì)議,2013歐亞經(jīng)濟(jì)論壇、2013中國(guó)知識(shí)管理論壇,第四屆全國(guó)知識(shí)組織與知識(shí)鏈接學(xué)術(shù)交流會(huì)及等學(xué)術(shù)會(huì)議進(jìn)行了交流,并被CPCI刊源論文集收錄(An, X., Deng, H., Cao, L. (2013).Knowledge Management in Support of Collaborative Innovation Community Capacity Building, Proceedings of the 10th International Conference on Intellectual Capital , Knowledge Management and Organizational Learning. The George Washington University, Washing, DC, USA. 24-25 October 2013: 19-25. ( ISI Web of Science CPCI刊源)
(2)以電子文件作為一種典型的信息資源,重點(diǎn)研究了電子文件的集成管理的技術(shù)特征及管理系統(tǒng)的研發(fā)重點(diǎn)與難點(diǎn),明確了電子文件類信息資源的集成管理需求,為下一步提出信息資源集成方法奠定了基礎(chǔ)。相關(guān)研究成果已在《檔案學(xué)通訊》、《現(xiàn)代圖書情報(bào)技術(shù)》等國(guó)內(nèi)相關(guān)領(lǐng)域的重要刊物上發(fā)表。
(3)重點(diǎn)研究了信息資源管理基礎(chǔ)理論和方法,深入研究信息資源管理理論的奠基人——F.W.Horton等國(guó)內(nèi)外專家學(xué)者的代表性成果,梳理了信息資源管理思想起源、核心觀點(diǎn)及研究方法,為本課題的進(jìn)一步研究奠定了基礎(chǔ)。在此方面,代表性研究成果課題組織翻譯了F.W.Horton的名著《Information Resources Management: Concept and Cases》。該成果已由南京大學(xué)出版社出版,成果名稱為《信息資源管理:概念與案例》。
1.4云計(jì)算環(huán)境下的信息資源服務(wù)模式研究(子課題4)
調(diào)研和分析了當(dāng)前知識(shí)組織和服務(wù)模式的新需求,研究了開放環(huán)境下信息資源組織策略和服務(wù)的體系架構(gòu),研究了以知識(shí)為主體的服務(wù)內(nèi)容和服務(wù)方式,研究了開放環(huán)境下同義術(shù)語(yǔ)的獲取方法和歸并方法,研究了云計(jì)算環(huán)境下語(yǔ)義搜索技術(shù)。作為實(shí)證研究,開發(fā)實(shí)現(xiàn)了基于漢語(yǔ)主題詞表(工程技術(shù)版)的術(shù)語(yǔ)服務(wù)原型系統(tǒng)。比較有代表性的成果有:
? 曾建勛. 開放式知識(shí)鏈接服務(wù)體系研究[J]. 情報(bào)理論與實(shí)踐, 2013, 36(1): 48-52.
? 曾建勛. 基于海量數(shù)字資源的科研關(guān)系網(wǎng)絡(luò)構(gòu)建探究[J]. 情報(bào)學(xué)報(bào), 2013, 32(9): 929-935.
? 常春. 基于詞頻信息確定敘詞表概念屬性[J]. 圖書情報(bào)工作, 2013, 57(16): 11-14, 24.
? 劉偉. 互聯(lián)網(wǎng)同義詞搜索中的詞義聚類問(wèn)題研究[J]. 圖書情報(bào)工作, 2013, 57(16): 15-19.
1.5.云計(jì)算環(huán)境中的學(xué)科知識(shí)信息資源集成與服務(wù)平臺(tái)架構(gòu)與評(píng)估(子課題5)
重點(diǎn)對(duì)學(xué)科資源云平臺(tái)構(gòu)建、學(xué)科資源獲取與集成、學(xué)科知識(shí)展示與服務(wù)的理論、方法與系統(tǒng)進(jìn)行了研究。主要進(jìn)展如下:
(1)研究從互聯(lián)網(wǎng)中自動(dòng)構(gòu)建知識(shí)庫(kù)以實(shí)現(xiàn)簡(jiǎn)化用戶搜索工作的方法。重點(diǎn)研究了如何從描述實(shí)體的大規(guī)模互聯(lián)網(wǎng)中自動(dòng)獲取資源并通過(guò)構(gòu)建知識(shí)庫(kù)進(jìn)行集成的問(wèn)題。我們提出了一個(gè)高效無(wú)監(jiān)督信息獲取方法,并借鑒分而治之的策略使該方法將一個(gè)困難的模板歸約問(wèn)題切分成多個(gè)較容易的子模板歸約問(wèn)題;對(duì)于自動(dòng)獲取得到的數(shù)據(jù),我們提出了一種基于實(shí)例的模式匹配方法,利用屬性實(shí)例之間的相似度來(lái)對(duì)屬性進(jìn)行匹配,獲得較好的資源集成效果。這一工作發(fā)表在Decision Support Systems上。(Jun He, Y. Gu, H. Liu, J. Yan, H. Chen. Scalable and noise tolerant web knowledge extraction for search task simplification. Decision Support Systems. Volume 56, Pages 156-167. December 2013. (SCI)
(2) 研究了利用社交網(wǎng)絡(luò)媒體這類數(shù)據(jù)資源進(jìn)行知識(shí)服務(wù)的方法。我們以微博媒體大數(shù)據(jù)集為研究對(duì)象,研究對(duì)用戶特征進(jìn)行預(yù)測(cè)的方法,并利用互信息對(duì)相關(guān)性進(jìn)行評(píng)估;為解決該類資源存在的高維和數(shù)據(jù)稀疏性的問(wèn)題,提出了聚集微博特征的方法,并采用多種分類算法對(duì)聚集特征做分類,最終設(shè)計(jì)的模型獲得較高的預(yù)測(cè)精度。這項(xiàng)工作發(fā)表在WISE 2013國(guó)際會(huì)議上,并獲得會(huì)議的最佳挑戰(zhàn)論文獎(jiǎng)。(Y. Li, T. Liu, H. Liu, Jun He and X. Du. Predicting Microblog User's Age based on Text Information. The 14th International Conference on Web Information System Engineering (WISE 2013), Nanjing, China, 2013, Pages 510-515. (EI) (Best Challenge Paper Award))
(3)學(xué)科資源云平臺(tái)構(gòu)建。構(gòu)建了EventTeller系統(tǒng),該系統(tǒng)能夠?qū)崟r(shí)抓取相關(guān)Web頁(yè)面數(shù)據(jù),并自動(dòng)過(guò)濾不相關(guān)網(wǎng)頁(yè),利用網(wǎng)頁(yè)標(biāo)題、摘要、發(fā)布時(shí)間更好的計(jì)算新聞網(wǎng)頁(yè)相似度,該系統(tǒng)實(shí)現(xiàn)了在線事件偵測(cè)和展示。系統(tǒng)主要包括如下功能:在線事件偵測(cè),計(jì)算新聞網(wǎng)頁(yè)相似度,并設(shè)計(jì)了實(shí)時(shí)計(jì)算詞語(yǔ)權(quán)重算法,建立倒排索引以及使用新聞標(biāo)題索引來(lái)過(guò)濾不相關(guān)網(wǎng)頁(yè);融入更多類型的資源,實(shí)時(shí)抓取事件相關(guān)圖片,微博等;話題追蹤,設(shè)計(jì)了基于鄰域更新的算法來(lái)解決事件頁(yè)面集合更新;利用分布式系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)及信息抽取,利用Hadoop的HDFS文件系統(tǒng),存儲(chǔ)實(shí)時(shí)抓取的數(shù)據(jù)。
2.項(xiàng)目管理工作
為了做好課題研究的服務(wù)和保障工作,課題組專門成立項(xiàng)目管理小組(圖1),負(fù)責(zé)監(jiān)督課題研究的范圍、進(jìn)度、人員、資源、質(zhì)量和成本,并協(xié)調(diào)不同子課題之間的研究工作,提高課題研究的整體性和系統(tǒng)性。課題項(xiàng)目管理在首席專家杜小勇教授和盧小賓教授的直接領(lǐng)導(dǎo)下由課題管理辦公室(課題總體組)負(fù)責(zé)實(shí)施。課題管理辦公室(課題總體組)主要由首席專家(杜小勇教授和盧小賓教授)、咨詢專家(馮惠玲教授、黃長(zhǎng)著研究員、王珊教授、李廣建教授)、各子課題負(fù)責(zé)人(李翠萍教授、陸嘉恒教授、安小米教授、曾建勛教授和何軍副教授)共同組成,課題秘書為朝樂門博士。
圖1 課題項(xiàng)目管理
(1)聘請(qǐng)了四位咨詢專家。為了更好地指導(dǎo)課題研究工作,解決課題研究中各種疑難問(wèn)題,課題組于2013年年初聘請(qǐng)了中國(guó)人民大學(xué)原常務(wù)副校長(zhǎng)馮惠玲教授、中國(guó)社會(huì)科學(xué)院學(xué)部委員黃長(zhǎng)著研究員、中國(guó)人民大學(xué)信息學(xué)院王珊教授、北京大學(xué)信息管理系李廣建教授為課題咨詢專家。
(2)召開了項(xiàng)目開題報(bào)告會(huì)。2013年4月16日在中國(guó)人民大學(xué)信息樓209會(huì)議室舉行了項(xiàng)目開題報(bào)告會(huì)。中國(guó)人民大學(xué)常務(wù)副校長(zhǎng)馮惠玲教授、中國(guó)社會(huì)科學(xué)院學(xué)部委員黃長(zhǎng)著研究員、中國(guó)人民大學(xué)信息學(xué)院王珊教授、北京大學(xué)信息管理系李廣建教授、課題組成員和來(lái)自校內(nèi)外的相關(guān)領(lǐng)域?qū)<覍W(xué)者出席了會(huì)議,會(huì)議由盧小賓教授主持。課題組首席專家杜小勇教授介紹了選題背景與動(dòng)機(jī)、研究目標(biāo)與預(yù)期成果、研究思路與方法、子課題劃分與任務(wù)分解、項(xiàng)目管理和總體進(jìn)度計(jì)劃等。接著,五個(gè)子課題負(fù)責(zé)人或其代表陸嘉恒教授、李翠平教授、朝樂門博士、曾建勛研究員和何軍副教授先后介紹了各子課題的研究?jī)?nèi)容與研究重點(diǎn)、研究思路與研究方法、預(yù)期成果和擬解決的關(guān)鍵問(wèn)題等。在討論交流環(huán)節(jié),王珊教授、李廣建教授等咨詢專家就課題研究定位、方法和預(yù)期成果等方面提出了意見和建議。最后,盧小賓教授代表課題組做總結(jié)性發(fā)言,并對(duì)國(guó)家社科基金委、評(píng)審專家、與會(huì)專家對(duì)此課題的大力支持表示感謝。他說(shuō),課題組凝聚中國(guó)人民大學(xué)信息資源管理學(xué)院、信息學(xué)院、數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)技術(shù)信息研究所在信息資源管理和云計(jì)算研究方面的優(yōu)勢(shì)力量,將理論突破和實(shí)踐應(yīng)用有機(jī)結(jié)合,力爭(zhēng)高水平、高質(zhì)量地完成課題任務(wù)。
圖2 開題報(bào)告會(huì)
(3)開發(fā)課題專用網(wǎng)頁(yè)。為了方便項(xiàng)目組內(nèi)部交流和資源共享,課題組開發(fā)了國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“云計(jì)算環(huán)境下的信息資源集成與服務(wù)研究”專用網(wǎng)頁(yè)。該網(wǎng)站不僅提供了研究目標(biāo)、研究?jī)?nèi)容、關(guān)鍵問(wèn)題等基本信息,而且還設(shè)有資源共享、項(xiàng)目動(dòng)態(tài)等欄目,較好地支持了項(xiàng)目組內(nèi)部交流和資源共享的需求。網(wǎng)頁(yè)訪問(wèn)地址:http://deke.ruc.edu.cn/static/icloud/index.html。
圖3 課題網(wǎng)站
(4)加強(qiáng)內(nèi)部溝通與交流。根據(jù)課題研究需要,項(xiàng)目組采取了子課題內(nèi)部交流和跨子課題交流相結(jié)合的方式。其中,子課題內(nèi)部交流主要由子課題負(fù)責(zé)人主持完成,一般限于特定子課題或部分子課題的范圍之內(nèi)進(jìn)行?傮w組十分重視跨子課題的交流與合作,先后3次召集各子課題負(fù)責(zé)人和部分代表交流各自的研究進(jìn)展、存在問(wèn)題和解決思路,確保了項(xiàng)目研究的整體性。此外,課題組還編制了項(xiàng)目研究手冊(cè)(圖4),統(tǒng)一提供了項(xiàng)目研究所需的相關(guān)規(guī)章制度、期刊目錄和成果標(biāo)注方法。
圖4 項(xiàng)目研究手冊(cè)
(5)規(guī)范財(cái)務(wù)報(bào)銷與管理工作。為了規(guī)范財(cái)務(wù)報(bào)銷工作,課題組專設(shè)了項(xiàng)目秘書的崗位,負(fù)責(zé)項(xiàng)目組的財(cái)務(wù)報(bào)銷工作。項(xiàng)目組采取集中報(bào)銷和實(shí)時(shí)報(bào)銷相結(jié)合的方法,較好地滿足了全體研究人員的財(cái)務(wù)報(bào)銷需求。2013年度共安排了3次集中報(bào)銷,并由課題秘書朝樂門博士負(fù)責(zé)統(tǒng)一收集和整理全體研究人員的報(bào)銷憑證,并經(jīng)首席專家杜小勇教授和盧小賓教授簽字批準(zhǔn)后交給財(cái)務(wù)部門報(bào)銷,較好地解決的財(cái)務(wù)報(bào)銷工作的規(guī)范性。
(6)重視人員變動(dòng)管理。根據(jù)項(xiàng)目研究需要,現(xiàn)聘請(qǐng)中國(guó)人民公安大學(xué)公安情報(bào)系周西平副教授、中國(guó)人民大學(xué)宋姬芳、張?zhí)K、王濤博士以及中國(guó)科技信息研究所劉偉、趙雪芹博士參與子課題《云計(jì)算環(huán)境下的信息資源服務(wù)模式》的研究工作;聘請(qǐng)中國(guó)人民大學(xué)牛力博士參與子課題《云計(jì)算環(huán)境下的信息資源集成方法》的研究工作。
(7)重視國(guó)內(nèi)外學(xué)術(shù)交流
1)2013年9月26-28日出席在中國(guó)西安召開的2013歐亞經(jīng)濟(jì)論壇,并在其第三界國(guó)際環(huán)境大會(huì):生態(tài)與可持續(xù)發(fā)展論壇上作"Meta-synthetic Strategies for Reuse of Public Sector Information Resources for Smart City: Case Analysis of Smart Travelling Projects"的報(bào)告.
2)October 24 to 25, speaker for “ Knowledge Management in Support of Collaborative Innovation Community Capacity Building” at the International Conference on 10th International Conference on Intellectual Capital, Knowledge Management & Organizational Learning held in George Washington University at Washington D.C., US.
3)2013年12月3日到4日在第四屆全國(guó)知識(shí)組織與知識(shí)鏈接學(xué)術(shù)交流會(huì)作“支持協(xié)同創(chuàng)新能力構(gòu)建的知識(shí)管理研究”特邀報(bào)告.
4)2013年12月14日在中國(guó)知識(shí)管理論壇作“支持協(xié)同創(chuàng)新體能力構(gòu)建的知識(shí)管理研究”特邀報(bào)告.
5)May 4 to May 10, 2014, ISO/TC46/SC11 meeting, Washington D.C., US。此次會(huì)議上安小米教授完成并提交了有關(guān)ISO/TC46/SC11系列標(biāo)準(zhǔn)產(chǎn)品的術(shù)語(yǔ)表。會(huì)議決議任命安小米教授承擔(dān)以下ISO/TC46/SC11標(biāo)準(zhǔn)工作:
6)領(lǐng)導(dǎo)ISO/TC46/SC11特別工作組3 (Ad Hoc Group 3)關(guān)于ISO/TC46/SC11術(shù)語(yǔ)表的建立及術(shù)語(yǔ)的規(guī)范性制修訂,未來(lái)工作包括(1)完成《ISO 30300系列標(biāo)準(zhǔn)與其他ISO/TC46/SC11產(chǎn)品的關(guān)系:術(shù)語(yǔ)》更新; (2)建立ISO/TC46/SC11詞匯表和術(shù)語(yǔ)表使用規(guī)則;(3)對(duì)術(shù)語(yǔ)的更新、修訂和增刪提出建議;(4)對(duì)術(shù)語(yǔ)及定義的連貫性和一致性規(guī)范使用提出建議;(5)識(shí)別影響ISO/TC46/SC11工作的核心概念,建立概念關(guān)系圖。
7)參與ISO/TC46/SC11特別工作組4 (Ad Hoc Group 4)開放數(shù)據(jù)與文件管理的關(guān)系研究工作。
8) 作為編輯組成員,參與解決各國(guó)針對(duì)《ISOCD30302 文件管理體系實(shí)施指南》提出的意見,作出意見處理的反饋。
9)作為新標(biāo)準(zhǔn)起草準(zhǔn)備工作組成員,參與關(guān)于文件管理體系標(biāo)準(zhǔn)實(shí)施的監(jiān)管和評(píng)測(cè)或治理的新產(chǎn)品起草。
10)負(fù)責(zé)《ISO 30300系列標(biāo)準(zhǔn)與其他ISO/TC46/SC11產(chǎn)品的關(guān)系:術(shù)語(yǔ)》更新。
11)2013年12月組織舉辦了“第四屆全國(guó)知識(shí)組織和知識(shí)鏈接學(xué)術(shù)交流會(huì)”。來(lái)自北京大學(xué)、中國(guó)人民大學(xué)、武漢大學(xué)、天津大學(xué)、南京大學(xué)等高校圖書館和國(guó)家科學(xué)技術(shù)圖書館、中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所、中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所等科研機(jī)構(gòu)的圖書情報(bào)、計(jì)算機(jī)領(lǐng)域的專家、學(xué)者等270余人參加了此次會(huì)議。
注:2010年立項(xiàng)的重大項(xiàng)目主要填寫2012年6月以來(lái)的研究進(jìn)展情況。
二、研究成果情況
(1)出版了《分布式系統(tǒng)與云計(jì)算概論》第二版。詳細(xì)介紹了分布式系統(tǒng)與云計(jì)算技術(shù),包括Google、Yahoo等公司的云平臺(tái)技術(shù)介紹、MapReduce和Hadoop生態(tài)系統(tǒng)中典型系統(tǒng)的介紹和相關(guān)云計(jì)算程序的開發(fā),較第一版有較大改進(jìn)。
(2)在Frontiers of Computer Science上發(fā)表了論文《Big data challenge: a data management perspective》。論文討論了大數(shù)據(jù)的多樣性特點(diǎn)、大數(shù)據(jù)的集成與清洗、大數(shù)據(jù)約簡(jiǎn)、大數(shù)據(jù)索引與查詢、大數(shù)據(jù)分析與挖掘等方面的挑戰(zhàn)與解決方法。其中提出的解決方案對(duì)本課題有一定參考和指導(dǎo)意義。
(3)開發(fā)了術(shù)語(yǔ)服務(wù)原型系統(tǒng),以此為研究平臺(tái),開展了本子課題相關(guān)的研究,包括信息資源組織策略、服務(wù)體系架構(gòu)內(nèi)容及方式、同義術(shù)語(yǔ)獲取與歸并、語(yǔ)義搜索等方面。該平臺(tái)獲得了軟件著作權(quán),開展了研究?jī)?nèi)容大部分已發(fā)表在國(guó)內(nèi)核心期刊上。通過(guò)理論研究與實(shí)踐結(jié)合,基本驗(yàn)證了所提出的服務(wù)模式在云計(jì)算環(huán)境下的可行性,部分的研究結(jié)果在服務(wù)系統(tǒng)上得到了實(shí)際應(yīng)用,并進(jìn)一步深化了下一階段的研究?jī)?nèi)容。
(4)構(gòu)建了EventTeller系統(tǒng),該系統(tǒng)能夠?qū)崟r(shí)抓取相關(guān)Web頁(yè)面數(shù)據(jù),并自動(dòng)過(guò)濾不相關(guān)網(wǎng)頁(yè),利用網(wǎng)頁(yè)標(biāo)題、摘要、發(fā)布時(shí)間更好的計(jì)算新聞網(wǎng)頁(yè)相似度,該系統(tǒng)實(shí)現(xiàn)了在線事件偵測(cè)和展示。系統(tǒng)主要包括如下功能:在線事件偵測(cè),計(jì)算新聞網(wǎng)頁(yè)相似度,并設(shè)計(jì)了實(shí)時(shí)計(jì)算詞語(yǔ)權(quán)重算法,建立倒排索引以及使用新聞標(biāo)題索引來(lái)過(guò)濾不相關(guān)網(wǎng)頁(yè);融入更多類型的資源,實(shí)時(shí)抓取事件相關(guān)圖片,微博等;話題追蹤,設(shè)計(jì)了基于鄰域更新的算法來(lái)解決事件頁(yè)面集合更新;利用分布式系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)及信息抽取,利用Hadoop的HDFS文件系統(tǒng),存儲(chǔ)實(shí)時(shí)抓取的數(shù)據(jù)。
(5)提出了一種支持協(xié)同創(chuàng)新體能力構(gòu)建的知識(shí)管理策略,探討了協(xié)同創(chuàng)新體能力構(gòu)建(Collaborative Innovation Community Capacity Building ,CICCB)所需的知識(shí)集成方法,明確了知識(shí)集成的模式與策略。相關(guān)研究成果在第10屆智力資本、知識(shí)管理和學(xué)習(xí)型組織國(guó)際會(huì)議,2013歐亞經(jīng)濟(jì)論壇、2013中國(guó)知識(shí)管理論壇,第四屆全國(guó)知識(shí)組織與知識(shí)鏈接學(xué)術(shù)交流會(huì)及等學(xué)術(shù)會(huì)議進(jìn)行了交流,并被CPCI刊源論文集收錄
(6)以電子文件作為一種典型的信息資源,重點(diǎn)研究了電子文件的集成管理的技術(shù)特征及管理系統(tǒng)的研發(fā)重點(diǎn)與難點(diǎn),明確了電子文件類信息資源的集成管理需求,為下一步提出信息資源集成方法奠定了基礎(chǔ)。相關(guān)研究成果已在《檔案學(xué)通訊》、《現(xiàn)代圖書情報(bào)技術(shù)》等國(guó)內(nèi)相關(guān)領(lǐng)域的重要刊物上發(fā)表。
(7)重點(diǎn)研究了信息資源管理基礎(chǔ)理論和方法,深入研究信息資源管理理論的奠基人——F.W.Horton等國(guó)內(nèi)外專家學(xué)者的代表性成果,梳理了信息資源管理思想起源、核心觀點(diǎn)及研究方法,為本課題的進(jìn)一步研究奠定了基礎(chǔ)。在此方面,代表性研究成果課題組織翻譯了F.W.Horton的名著《Information Resources Management: Concept and Cases》。該成果已由南京大學(xué)出版社出版,成果名稱為《信息資源管理:概念與案例》。
注:2010年立項(xiàng)的重大項(xiàng)目主要填寫2012年6月以來(lái)的研究成果情況。
序號(hào) |
成果名稱 |
作者 |
成果形式 |
刊物名或出版社、刊發(fā)或出版時(shí)間 |
字?jǐn)?shù) |
轉(zhuǎn)載、引用、獲獎(jiǎng)等情況 |
|
|
|
|
|
|
|
1. |
MapReduce-Based SimRank Computation and Its Application in Social Recommender System |
Lina Li, Cuiping Li, Hong Chen, Xiaoyong Du |
論文 |
IEEE Bigdata Congress, 2013
|
0.9萬(wàn) |
|
2. |
On Perspective Aware Top-k Similarity Search in Multi-Relational Networks |
Yinglong Zhang, Cuiping Li, Hong Chen |
論文 |
DASFAA 2014. |
0.8萬(wàn) |
|
3. |
SuperSimRank:信息網(wǎng)絡(luò)中一個(gè)有效的結(jié)點(diǎn)相似度度量 |
張應(yīng)龍,李翠平,陳紅 |
論文 |
2014,軟件學(xué)報(bào). 已錄用 |
0.8萬(wàn) |
|
4. |
Accuracy Estimation of Link-based Similarity Measures and Its Application |
Yinglong Zhang, Cuiping Li, Hong Chen |
論文 |
WAIM 2014 |
0.9萬(wàn) |
|
5. |
《分布式系統(tǒng)與云計(jì)算概論》(第二版) |
陸嘉恒 |
教材 |
清華大學(xué)出版社 2013年12月 |
48.6萬(wàn) |
“十一五”國(guó)家級(jí)規(guī)劃教材 |
6. |
Big data challenge: a data management perspective |
陸嘉恒 |
論文 |
Frontiers of Computer Science |
0.9萬(wàn) |
|
7. |
Knowledge Management in Support of Collaborative Innovation Community Capacity Building, Proceedings of the |
An, X., Deng, H., Cao, L. |
會(huì)議論文 |
10th International Conference on Intellectual Capital , Knowledge Management and Organizational Learning. The George Washington University, Washing, DC, USA. 24-25 October 2013. |
0.6萬(wàn) |
|
8. |
國(guó)外智慧城市知識(shí)中心構(gòu)建機(jī)制及其借鑒研究 |
安小米 |
論文 |
情報(bào)資料工作, 34(4), 2013. |
0.7萬(wàn) |
中文核心期刊 |
9. |
面向智慧城市發(fā)展的信息資源管理協(xié)同創(chuàng)新策略構(gòu)想 |
安小米 |
論文 |
情報(bào)資料工作, 2014(3) |
0.8萬(wàn) |
中文核心期刊 |
10. |
詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究 |
夏天 |
論文 |
現(xiàn)代圖書情報(bào)技術(shù)2013(9) |
0.5萬(wàn) |
中文核心期刊 |
11. |
融合LDA 與TextRank 的關(guān)鍵詞抽取研究 |
夏天等 |
論文 |
現(xiàn)代圖書情報(bào)技術(shù)(已錄用) |
0.8萬(wàn) |
中文核心期刊 |
12. |
云計(jì)算環(huán)境下電子文件管理的關(guān)鍵技術(shù)研究 |
薛四新,朝樂門,田雷 |
論文 |
北京檔案,2013,01 |
0.8萬(wàn) |
中文核心期刊 |
13. |
電子文件管理系統(tǒng)的技術(shù)特征 |
朝樂門 |
論文 |
現(xiàn)代圖書情報(bào)技術(shù), 2013,4 |
0.8萬(wàn) |
中文核心期刊 |
14. |
電子文件管理系統(tǒng)研發(fā)的重點(diǎn)與難點(diǎn)分析 |
朝樂門 |
論文 |
檔案學(xué)通訊,2014,01 |
0.8萬(wàn) |
中文核心期刊 |
15. |
基于海量數(shù)字資源的科研關(guān)系網(wǎng)絡(luò)構(gòu)建探究 |
曾建勛 |
論文 |
情報(bào)學(xué)報(bào) 2013(9) |
0.8萬(wàn) |
中文核心期刊 |
16. |
基于詞頻信息確定敘詞表概念屬性 |
常春 |
論文 |
圖書情報(bào)工作,2013(8) |
1.1萬(wàn) |
中文核心期刊 |
17. |
互聯(lián)網(wǎng)同義詞搜索中的詞義聚類問(wèn)題研究 |
劉偉 |
論文 |
圖書情報(bào)工作,2013(8) |
1.0萬(wàn) |
中文核心期刊 |
18. |
國(guó)家工程技術(shù)圖書館科研工作體系構(gòu)建 |
曾建勛 |
論文 |
數(shù)字圖書館論壇,2013(10) |
0.7萬(wàn) |
中文核心期刊 |
19. |
國(guó)家工程技術(shù)數(shù)字圖書館服務(wù)體系建設(shè) |
劉華 |
論文 |
數(shù)字圖書館論壇,2013(10) |
0.6萬(wàn) |
中文核心期刊 |
20. |
基于RDA的標(biāo)簽與書目數(shù)據(jù)關(guān)聯(lián)方法初探 |
魏來(lái) |
論文 |
圖書情報(bào)工作,2014(4) |
0.6萬(wàn) |
中文核心期刊 |
21. |
基于引文的中文學(xué)術(shù)文獻(xiàn)自動(dòng)標(biāo)引方法研究 |
劉偉 |
論文 |
圖書情報(bào)工作,2014(2) |
0.8萬(wàn) |
中文核心期刊 |
22. |
同義術(shù)語(yǔ)歸并中縮略語(yǔ)的處理方法研究 |
常春 |
論文 |
圖書情報(bào)工作,2014(1) |
0.8萬(wàn) |
中文核心期刊 |
23. |
一種電子文件管理系統(tǒng)的自動(dòng)化測(cè)試方法 |
杜小勇、朝樂門等 |
發(fā)明專利 |
201410045487.5 |
1.3萬(wàn) |
|
24. |
基于Hadoop的索引創(chuàng)建方法及其索引方法 |
陸嘉恒 |
發(fā)明專利 |
201310302669.1 2013.07.17 |
1.2萬(wàn) |
|
25. |
一種基于海量文本數(shù)據(jù)的相似度衡量方法 |
陸嘉恒 |
發(fā)明專利 |
201310335123.6 2013.08.02 |
1.5萬(wàn) |
|
26. |
分布式海量Web數(shù)據(jù)爬取共享系統(tǒng) |
陸嘉恒 |
發(fā)明專利 |
201310471593.5 2013.10.11 |
1.3萬(wàn) |
|
27. |
友好的XML圖形化搜索系統(tǒng)軟件V1.0 |
陸嘉恒,林春彬 |
軟件著作權(quán) |
2013SR035944 2013.04.22 |
1.5萬(wàn) |
|
28. |
海量Web數(shù)據(jù)信息自動(dòng)爬取與半自動(dòng)化抽取系統(tǒng)軟件V1.0 |
陸嘉恒 |
軟件著作權(quán) |
2013SR116778 2013.10.31 |
1.3萬(wàn) |
|
29. |
海量非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)測(cè)試軟件[簡(jiǎn)稱:NSRunner] V1.0 |
陸嘉恒,蔡曉華 |
軟件著作權(quán) |
2013SR131745 2013.11.25 |
1.5萬(wàn) |
|
30. |
云計(jì)算環(huán)境下的信息資源的集成與服務(wù)研究 |
盧小賓等 |
論文 |
《中國(guó)信息年鑒》特約論文 |
0.7萬(wàn) |
|
課題組供稿