舊版網(wǎng)站入口

站內(nèi)搜索

中國—中南半島經(jīng)濟走廊沿線綜合調(diào)查數(shù)據(jù)庫建設(shè)的中期檢查報告

2018年11月29日16:09來源:全國哲學(xué)社會科學(xué)工作辦公室

一、研究進展情況

一、總體計劃執(zhí)行情況及子課題進展情況

1、總體計劃執(zhí)行情況

本項目于2017年5月5日開題,之后各課題組在能順暢溝通交流的前提下分別進行研究,依據(jù)項目完成的成果要求,

已完成:

1)“中國—中南半島經(jīng)濟走廊規(guī)劃需求下的數(shù)據(jù)庫規(guī)劃設(shè)計研究報告”

2)互聯(lián)網(wǎng)數(shù)據(jù)采集及存儲子系統(tǒng)(軟件)

3)數(shù)據(jù)可視化子系統(tǒng)(軟件)

4)衛(wèi)星數(shù)據(jù)采集與管理子系統(tǒng)(軟件)

5)數(shù)據(jù)庫安全系統(tǒng)(軟件)

6)系統(tǒng)終端安全系統(tǒng)(軟件)

7)“云翻譯數(shù)據(jù)中心”的軟件需求分析

8)“生產(chǎn)線自動控制子系統(tǒng)”的軟件需求分析

9)“數(shù)據(jù)挖掘——人物背景分析”的軟件需求分析

10)“數(shù)據(jù)挖掘——投資環(huán)境分析”的軟件需求分析

11)“大數(shù)據(jù)應(yīng)用——城市建設(shè)和港口建設(shè)預(yù)測”的軟件需求分析

12)“中國—中南半島經(jīng)濟走廊沿線國家金融平臺子系統(tǒng)”的軟件需求分析

13)參加國際會議7次,舉辦國際會議6次,與柬埔寨前副首相及技術(shù)人員討論信息數(shù)據(jù)應(yīng)用1次

14)發(fā)表論文67篇,錄用論文7篇

15)對采集回來的數(shù)據(jù)進行分析研究并生成各類報告,其中有10份報告獲各級領(lǐng)導(dǎo)批示

16)目前已采集數(shù)據(jù)15億3千萬條,日更新數(shù)據(jù)20萬條

17)中國-東盟全息數(shù)據(jù)研究與資訊中心建設(shè)

18)已建設(shè)一個包含54臺服務(wù)器的具有高可靠、高可用的系統(tǒng)硬件平臺

整體項目待完成任務(wù):

1)“云翻譯數(shù)據(jù)中心”的軟件開發(fā)

2)“生產(chǎn)線自動控制子系統(tǒng)”的軟件開發(fā)

3)“數(shù)據(jù)挖掘——人物背景分析”的軟件開發(fā)

4)“數(shù)據(jù)挖掘——投資環(huán)境分析”的軟件開發(fā)

5)“大數(shù)據(jù)應(yīng)用——城市建設(shè)和港口建設(shè)預(yù)測”的軟件開發(fā)

6)“中國—中南半島經(jīng)濟走廊沿線國家金融平臺子系統(tǒng)”的軟件開發(fā)

按照這個進度,如果有較多的滾動經(jīng)費補充,項目能更好按時完成。

2、各子課題進展情況

1)子課題之一:中國-中南半島規(guī)劃需求下的數(shù)據(jù)庫規(guī)劃與設(shè)計

已全部完成。完成了“中國—中南半島經(jīng)濟走廊規(guī)劃需求下的數(shù)據(jù)庫規(guī)劃設(shè)計研究報告”

2)子課題之二:中國—中南半島經(jīng)濟走廊沿線綜合數(shù)據(jù)庫的數(shù)據(jù)采集與存儲

已全部完成。

① 課題進展情況:

完成了要求的軟件系統(tǒng)開發(fā):互聯(lián)網(wǎng)數(shù)據(jù)采集及存儲子系統(tǒng)(軟件),數(shù)據(jù)可視化子系統(tǒng) (軟件),衛(wèi)星數(shù)據(jù)采集與管理子系統(tǒng)(軟件)

② 調(diào)查研究及學(xué)術(shù)交流情況:

進行數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)可視化子系統(tǒng)和衛(wèi)星數(shù)據(jù)采集與管理子系統(tǒng)需求分析調(diào)研,完成了這三個子系統(tǒng)業(yè)務(wù)需求書及開發(fā),參加6次國際學(xué)術(shù)會議,舉辦5次國際會議。

項目首席專家作為訪問學(xué)者,2017.5—2018.5在美國德州大學(xué)進行訪學(xué),期間參與了他們一個項目的數(shù)據(jù)采集相關(guān)工作。

③ 成果宣傳推介情況

各級領(lǐng)導(dǎo)、各個單位視察該系統(tǒng)不少于50次,每次均獲得很好評價;

采集數(shù)據(jù)的動態(tài)展示頁面:

④ 研究中存在的主要問題、改進措施,研究心得、意見建議

⑤ 其他需要說明的問題

3)子課題之三:中國—中南半島經(jīng)濟走廊沿線綜合數(shù)據(jù)庫的數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)應(yīng)用

正在進行。

① 課題進展情況:

主要進行中國—中南半島經(jīng)濟走廊沿線各國人物背景分析和投資環(huán)境分析的研究,包括人物背景分析的數(shù)據(jù)源下載、實體抽取和人物社會關(guān)系的分析,性格分析,投資環(huán)境分析中中長期預(yù)測,取得了一些階段性成果,包括基于關(guān)注行為預(yù)測的關(guān)注對象推薦,基于話題排序的通用話題建模,基于時間卷積和長短時記憶網(wǎng)絡(luò)的時間序列預(yù)測模型,融合微博情感分析和深度學(xué)習(xí)的宏觀經(jīng)濟預(yù)測,基于遠域適應(yīng)的文本分類,話題權(quán)威度敏感的影響最大化,用于云存儲的一套高性能兩方去重方法等方面的研究,發(fā)表錄用期刊論文2篇,發(fā)表及錄用會議論文5篇,進展順利。

② 調(diào)查研究及學(xué)術(shù)交流情況:

進行數(shù)據(jù)挖掘子系統(tǒng)需求分析調(diào)研,完成了數(shù)據(jù)挖掘子系統(tǒng)業(yè)務(wù)需求書,參加1次國際學(xué)術(shù)會議,即將參加國際學(xué)術(shù)會議5次。邀請美國加州大學(xué)圣塔芭芭拉分校嚴錫鋒教授到華中科技大學(xué)交流1次。

衛(wèi)星數(shù)據(jù)項目組成員到柬埔寨吳哥和前副首相以及柬埔寨相關(guān)技術(shù)人員交流遙感技術(shù)在柬埔寨的應(yīng)用。

項目組成員和前副首相座談

③ 成果宣傳推介情況

項目組成員受邀作為專欄作家在“觀察者網(wǎng)”上發(fā)表大量關(guān)于遙感空間信息應(yīng)用到全球社會經(jīng)濟分析的文章,平均每篇文章的閱讀量能達到5萬。(觀察者網(wǎng)是上海春秋發(fā)展戰(zhàn)略研究院主辦的新聞時評集成網(wǎng)站,旨在以即時綜合資訊和特色原創(chuàng)內(nèi)容為全球中文閱讀者提供時政事件的深度報道以及思想領(lǐng)域的全面解讀。)

如利用遙感衛(wèi)星資料描述夏威夷火山爆發(fā)的文章《夏威夷人民處于水深火熱中 但美國政府的領(lǐng)土面積又擴大了》僅僅在“今日頭條”一個渠道上就實現(xiàn)了一天63.5萬的閱讀量,313條回帖評論的成績。

目前我們在中南半島的應(yīng)用主要以柬埔寨的暹粒市為核心,這里是柬埔寨第二大城市,也是著名世界自然遺產(chǎn)吳哥窟所在地。我們利用光學(xué)、雷達多種傳感器對其開展研究分析。我們通過遙感衛(wèi)星數(shù)據(jù)對該區(qū)域土地類型展開分類,評估隨著經(jīng)濟的發(fā)展,其城市的變化趨勢,以及其可持續(xù)發(fā)展的承載能力。

2017年柬埔寨暹粒市(吳哥)衛(wèi)星影像

2017年柬埔寨暹粒市(吳哥)土地分類圖

④ 研究中存在的主要問題、改進措施,研究心得、意見建議

⑤ 其他需要說明的問題

4)子課題之四:基于云服務(wù)的數(shù)據(jù)可視化及數(shù)據(jù)庫多語言智能化應(yīng)用

本子課題旨在解決中國—中南半島經(jīng)濟走廊沿線綜合數(shù)據(jù)庫的數(shù)據(jù)可視化、多語言翻譯、智能化應(yīng)用—金融數(shù)據(jù)平臺三個問題。

數(shù)據(jù)可視化:(已完成)

在基于云服務(wù)的數(shù)據(jù)可視化方法研究基礎(chǔ)上,研究建立了中國—中南半島經(jīng)濟走廊空間數(shù)據(jù)可視化多維度展示系統(tǒng),實現(xiàn)了區(qū)域遙感影像、矢量數(shù)據(jù)、圖片、視頻、新聞文字等大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多源異構(gòu)數(shù)據(jù)的高效可視化。

東盟國家相關(guān)數(shù)據(jù)展示

多語言翻譯:(已完成軟件需求分析)

對海量東盟多語種信息的詞匯同中文的詞匯、語句進行云平臺后臺對應(yīng),并設(shè)計相應(yīng)算法對相應(yīng)語法進行準確翻譯。

數(shù)據(jù)智能化應(yīng)用:這是一個開放共享數(shù)據(jù)庫數(shù)據(jù)的平臺。(已完成軟件需求分析)

研究數(shù)據(jù)接口,建立起相關(guān)金融數(shù)據(jù)平臺實現(xiàn)支持東盟金融信息、實時行情數(shù)據(jù)、金融資訊等內(nèi)容的編輯、加工和整合的加工處理系統(tǒng),形成東盟金融數(shù)據(jù)中心和編輯中心。

進展:

1.調(diào)研了東盟國家金融數(shù)據(jù)相關(guān)情況

調(diào)研了解了國內(nèi)外現(xiàn)有金融數(shù)據(jù)平臺:有世界銀行網(wǎng)站、雅虎財經(jīng)、新浪財經(jīng)、中國金融信息網(wǎng)、東方財富網(wǎng)、中國金融指數(shù)研究院、搜狐等。通過對各大金融網(wǎng)站數(shù)據(jù)匯總對比,分析了目前國內(nèi)外現(xiàn)有金融數(shù)據(jù)平臺的金融數(shù)據(jù)信息,對后續(xù)金融數(shù)據(jù)的采集提供相關(guān)參考。

2.研究和分析金融數(shù)據(jù)的采集及處理

金融數(shù)據(jù)根據(jù)時效性,一般分為實時變動的數(shù)據(jù)和非實時變動的數(shù)據(jù)。已按不同要求收集獲取了網(wǎng)絡(luò)金融數(shù)據(jù)。針對東盟各國的金融數(shù)據(jù)情況,對于實時變動的數(shù)據(jù),實現(xiàn)實時、不間斷的獲取相關(guān)數(shù)據(jù);對于階段性的統(tǒng)計數(shù)據(jù),按照固定時間間隔監(jiān)控一次數(shù)據(jù)來源網(wǎng)站,獲取相關(guān)金融數(shù)據(jù)。

②調(diào)查研究及學(xué)術(shù)交流情況(調(diào)研數(shù)據(jù)整理運用、文獻資料收集整理、學(xué)術(shù)會議、學(xué)術(shù)交流、國際合作等)

調(diào)研了解了國內(nèi)外現(xiàn)有金融數(shù)據(jù)平臺,對各種金融數(shù)據(jù)按照結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);行情數(shù)據(jù)、宏觀經(jīng)濟數(shù)據(jù)、行業(yè)產(chǎn)業(yè)數(shù)據(jù)等進行整理、歸類。

撰寫整理了兩份報告:東盟金融信息平臺系統(tǒng)需求研究報告一份,東盟金融信息平臺系統(tǒng)需求設(shè)計分析一份

③成果宣傳推介情況(成果發(fā)布會、《工作簡報》報送情況、國家社科基金?陡寮安捎们闆r等);

④研究中存在的主要問題、改進措施,研究心得、意見建議

存在的主要問題:金融數(shù)據(jù)調(diào)研前期數(shù)據(jù)較多,數(shù)據(jù)指標較雜亂。

改進措施:向金融專業(yè)的教授專家請教,提取重要金融數(shù)據(jù),重新設(shè)計優(yōu)化相關(guān)數(shù)據(jù)結(jié)構(gòu),對金融數(shù)據(jù)重新歸類。

研究心得:要充分準備,目標明確;加強團隊合作與交流;不斷反思與借鑒,提高科研能力。

二、研究成果情況

項目組已經(jīng)取得的代表性成果

1)中國-東盟全息數(shù)據(jù)研究與資訊中心建設(shè)

中國-東盟研究院的全息數(shù)據(jù)研究與資訊中心,也是中國-東盟信息港的數(shù)據(jù)中心先行先試,該中心除了具有完善的設(shè)備外,還研發(fā)了一套東盟全息數(shù)據(jù)系統(tǒng)平臺,該系統(tǒng)平臺能極大滿足科研團隊課題研究需要,為日常教學(xué)工作、為各類專題會議、為社會各界了解東盟各國相關(guān)信息提供技術(shù)支撐,助力廣西大學(xué)中國-東盟研究院打造“中國-東盟”領(lǐng)域國家級智庫,為中國-東盟合作進程做出應(yīng)有貢獻。

2)資訊中心機房建設(shè)

(1)系統(tǒng)規(guī)模

(2)系統(tǒng)物理拓撲圖

3)領(lǐng)導(dǎo)批示及建議采納。

對運行于上述配置的機房中的系統(tǒng)采集得到的大數(shù)據(jù)進行研究,2017、2018兩年有10份研究成果分別得到自治區(qū)黨委書記、主席等各級領(lǐng)導(dǎo)批示、進入教育部成果簡報等,為政府決策提供有力支持。

。

4)實時獲取全球熱點新聞、新聞分布圖等各類信息

5)以采集數(shù)據(jù)為基礎(chǔ),生成了廣西大學(xué)東盟研究院的輿情周報、國別輿情報告、專題輿情報告、熱點分析等諸多成果。

廣西大學(xué)中國東盟研究院輿情報告以中國—東盟領(lǐng)域?qū)崟r新聞和重大熱點問題為關(guān)注重點,分為國別輿情、專題輿情、熱點分析和輿情報告滾動四個板塊內(nèi)容,將相關(guān)輿情信息編制成定期專報,對某一重大輿情事件提供階段性或全過程輿情監(jiān)測與分析研判,為廣大研究者和研究機構(gòu)提供形式多樣、視角豐富的中國—東盟主流訊息。

國別輿情報告以東盟十國為研究對象,由廣西大學(xué)中國東盟研究院十個國別研究所提供,包括《越南所輿情周報》、《緬甸輿情周報》、《老撾輿情周報》、《柬埔寨輿情周報》、《印度尼西亞輿情周報》、《新加坡輿情周報》、《菲律賓輿情周報》、《馬來西亞輿情周報》、《泰國輿情周報》、《文萊輿情周報》。同時,在匯集國別輿情報告的基礎(chǔ)上,經(jīng)由整理、匯編,形成《東盟輿情政治周刊》、《東盟輿情經(jīng)濟周刊》、《東盟輿情社會周刊》。

通過廣西大學(xué)中國東盟研究院官網(wǎng)、政府媒體、知名媒體網(wǎng)站和通訊社等途徑對東盟十國的輿論信息和重大新聞進行實時的采集,匯總和分析,編制成定期周報,為中國—東盟領(lǐng)域的全方位研究提供及時有效的信息與資料。

專題輿情報告包括《ASEAN周報》、《中國—東盟設(shè)施聯(lián)通輿情半月談》、《TPP、APEC、RCEP、FTAAP、TTIP輿情半月談》、《中國—東盟金融輿情半月談》、《中國—東盟人文輿情半月談》、《中國—東盟投資與貿(mào)易輿情半月談》、《中國—東盟一帶一路輿情半月談》、《中國廣西—東盟關(guān)系輿情半月談》。

專題輿情以內(nèi)容專題的形式對中國-東盟的重大事件進行匯總分析和解讀點評,精準呈現(xiàn)媒體關(guān)注熱點,及時捕捉重大事件輿情動向,為中國-東盟領(lǐng)域研究帶來針對性的參考借鑒。

“熱點分析”如下圖:

“輿情報告滾動”如下圖:

6)數(shù)據(jù)挖掘子系統(tǒng)成果

(1) FRFB:基于關(guān)注行為預(yù)測的關(guān)注對象推薦方法

近年來隨著微博等社交網(wǎng)絡(luò)的快速增長,基于社交網(wǎng)絡(luò)圖結(jié)構(gòu)分析的一個新的具有重要意義的課題是用戶關(guān)注對象(followee)的推薦問題。國內(nèi)外已有不少關(guān)注對象推薦的相關(guān)研究,但如何將基于圖拓撲結(jié)構(gòu)和基于內(nèi)容的方法有效結(jié)合起來仍是一個很大的挑戰(zhàn)。通過探索和利用社交網(wǎng)絡(luò)圖結(jié)構(gòu)中用戶“關(guān)注”行為的拓撲傳播特性,推薦潛在的關(guān)注對象。探索了一種利用用戶“關(guān)注”行為本身來預(yù)測用戶“關(guān)注”行為的新思路:將用戶對其他用戶的“關(guān)注”視作一個主動的、動態(tài)的、連貫的用戶行為,進一步考慮用戶“關(guān)注”行為之間的相互影響,并結(jié)合作者前期對top-k選擇算法的研究,提出一種有效的top-k關(guān)注對象推薦算法FRFB (Followee Recommendation by Following Behaviors)。FRFB基于社交網(wǎng)絡(luò)圖結(jié)構(gòu)本身,借鑒朋友關(guān)系在社交網(wǎng)絡(luò)中的傳播思想,對關(guān)注關(guān)系的傳播進行建模。算法復(fù)雜度低,可擴展性高,并且稍加調(diào)整即可適應(yīng)現(xiàn)實中大規(guī)模動態(tài)社交網(wǎng)絡(luò)。在真實社交網(wǎng)絡(luò)數(shù)據(jù)集(Wiki和Twitter)上進行的大量實驗表明,F(xiàn)RFB算法的推薦性能顯著優(yōu)于已有的基于圖拓撲結(jié)構(gòu)的推薦算法。

論文成果“FRFB: Top-k Followee Recommendation by Exploring the Following Behaviors in Social Networks”發(fā)表在Concurrency and Computation-Practice & Experience(CCF C類期刊)期刊2018.06發(fā)表(DOI: 10.1002/cpe.4514)。

(2) 一種基于話題排序的通用話題建?蚣

話題建模是文本數(shù)據(jù)挖掘的一種重要方法,本文研究文檔網(wǎng)絡(luò)的話題建模問題,將話題排序與話題建模相結(jié)合,提出一種基于話題排序的通用話題建?蚣躌TMF(Rank-Integrated Topic Modeling Framework),解決了當(dāng)前基于排序的話題建模不能與LDA相結(jié)合的問題。RTMF將排序向量進行話題歸一化,然后通過一個權(quán)重因子將排序向量引入話題建模中,建立了一個話題排序與話題建模互相增強的框架。在RTMF的基礎(chǔ)上,本文提出基于話題排序的PLSA模型和LDA模型。具體來說,將Topical PageRank和Topical HITS分別與PLSA模型相結(jié)合建立RankPLSA和HITSPLSA模型并推導(dǎo)出基于EM的模型推理算法,將Topical PageRank和Topical HITS分別與LDA模型相結(jié)合建立RankLDA和HITSLDA模型,推導(dǎo)出基于折疊吉布斯采樣的模型推理算法。

實驗在三個論文數(shù)據(jù)集和一個Twitter數(shù)據(jù)集上進行,對比算法包括兩個基礎(chǔ)的話題模型和兩個基于排序的話題模型,對比實驗包括泛化能力、文檔分類、文檔聚類和話題可解釋性四個方面。實驗結(jié)果顯示本文所提出的四個基于話題排序的話題模型在所有對比實驗上均優(yōu)于基礎(chǔ)的話題模型,基于話題排序的LDA模型在所有模型中具有最好的效果;谠掝}排序的通用話題建?蚣芸捎糜诨跀(shù)字媒體的熱點事件分析等。

論文成果“Rank-Integrated Topic Modeling: A General Framework”被APWeb-WAIM2018錄用發(fā)表(CCF C類會議)。

(3) 基于時間卷積和長短時記憶網(wǎng)絡(luò)的時間序列預(yù)測模型

時間序列預(yù)測一直以來就是學(xué)者們研究的熱門領(lǐng)域,提出來一系列優(yōu)秀的模型算法,例如ARIMA,Holt-Winters等;深度學(xué)習(xí)興起后,各種處理序列數(shù)據(jù)的模型不斷出現(xiàn),出現(xiàn)了一大批以RNN為基礎(chǔ)的模型的創(chuàng)新,例如LSTM,GRU等,本文從發(fā)掘時間序列的長期模式和短期的波動規(guī)律兩個方面出發(fā),受卷積神經(jīng)網(wǎng)絡(luò)提取區(qū)域特征的啟發(fā),使用時間卷積提取序列的長期波動特征,然后將其整合到LSTM的細胞狀態(tài)中,因此循環(huán)神經(jīng)網(wǎng)絡(luò)可以獲得更長的數(shù)據(jù)依賴性并同時獲得整體變化特征的時間序列預(yù)測模型。本文提出一種基于時間卷積和長期短期記憶網(wǎng)絡(luò)(TC-LSTM)的新型深度學(xué)習(xí)模型,以捕獲長期系列特征以進行時間序列的長期和短期預(yù)測。本文在三個不同類型的數(shù)據(jù)集上對TC-LSTM模型進行實驗,相比于傳統(tǒng)的LSTM和GRU網(wǎng)絡(luò),實驗結(jié)果表明,TC-LSTM模型在預(yù)測精度上優(yōu)于其他類似模型,結(jié)合實驗結(jié)果和模型分析,加入時間卷積特征對于時間序列預(yù)測精度有一定的提升。

論文成果“Stock Price Prediction Using Time Convolution Long Short-Term Memory Network”已被KSEM 2018(CCF C類會議)錄用。

(4) 融合微博情感分析和深度學(xué)習(xí)的宏觀經(jīng)濟預(yù)測方法研究

現(xiàn)代市場經(jīng)濟快速發(fā)展的同時也伴隨著較高的風(fēng)險。本文通過對地區(qū)投資情況提前預(yù)測,以求能夠提前發(fā)現(xiàn)投資風(fēng)險,為國家、企業(yè)的投資決策提供參考。針對宏觀經(jīng)濟預(yù)測中統(tǒng)計數(shù)據(jù)滯后和內(nèi)部關(guān)系復(fù)雜的問題,本文提出一種融合情感分析和深度學(xué)習(xí)的預(yù)測方法——SA-LSTM(Sentiment Analysis-Long Short Term Memory)。該方法首先考慮微博的強時效性,確定了微博爬取和情感分析的方法,得到微博情感分值,進而結(jié)合政府統(tǒng)計的結(jié)構(gòu)化經(jīng)濟指標和長短期記憶神經(jīng)網(wǎng)絡(luò),實現(xiàn)地區(qū)投資總額預(yù)測。經(jīng)過實際數(shù)據(jù)計算驗證,在三個數(shù)據(jù)集上,加入微博后,該方法能夠降低預(yù)測相對誤差4.95%, 0.92%, 1.21%;與差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model, ARIMA), 線性回歸(Linear Regression, LR),反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò), 長短期記憶(Long Short Term Memory, LSTM)網(wǎng)絡(luò)四個方法中的最優(yōu)方法相比能夠降低相對誤差0.06%, 2.09%, 0.94%。另外,該方法在多個時間片上,預(yù)測相對誤差穩(wěn)定,具有很好的魯棒性,對數(shù)據(jù)抖動有良好的適應(yīng)性。

論文成果《融合微博情感分析和深度學(xué)習(xí)的宏觀經(jīng)濟預(yù)測方法》已被CCDM 2018錄用,推薦到《計算機應(yīng)用》期刊發(fā)表。

(5)基于遠域適應(yīng)的文本分類

文本分類現(xiàn)在成為了一個熱點話題。在實際中,訓(xùn)練數(shù)據(jù)跟測試數(shù)據(jù)很可能來自不同的分布,這就導(dǎo)致了域適應(yīng)問題。在本文中,我們研究一個新的問題:文本的遠域適應(yīng)分類問題。在這個問題中,目標域跟源域可能差別很大,傳統(tǒng)的遷移學(xué)習(xí)方法并不能很好的處理這類問題,因為他們假設(shè)源域和目標域是相似的。為了解決這個問題,我們提出了基于選擇的域適應(yīng)算法。基于選擇的域適應(yīng)算法從源域和中間域中迭代選擇可靠的數(shù)據(jù),來減少源域和目標域之間的差異。大量的實驗表明,我們的算法能取得最好的效果。

論文成果“Distant Domain Adaptation for Text Classification ”已被KSEM 2018錄用。

(6)話題權(quán)威度敏感的影響最大化

影響力最大化(Influence Maximization,IM)已經(jīng)在社會網(wǎng)絡(luò)分析中被廣泛的研究,但大部分現(xiàn)有的研究無法區(qū)分不同消息下的影響力用戶及用戶權(quán)威度,針對現(xiàn)有傳播模型和算法的不足,通過將用戶的主題權(quán)威度融入到傳播模型中,提出了主題權(quán)威度敏感的獨立級聯(lián)模型(Topical Authority sensitive Independent Cascade model,TAIC),同時,為了解決主題權(quán)威度敏感的IM問題,將上述模型與貪心算法結(jié)合,提出了主題權(quán)威度敏感的貪心算法(Topical Authority sensitive Greedy algorithm,TAG)。由于傳統(tǒng)的評價度量并沒有考慮主題,提出了新的度量 ,用于評估考慮了主題的傳播模型和算法的有效性。通過在兩個真實的社會網(wǎng)絡(luò)數(shù)據(jù)集Aminer和NetHEPT上的實驗表明,基于TAIC模型的TAG算法以非常高的效率分別找到在給定主題下影響力更大的種子節(jié)點集。

論文成果“Topical Authority-Sensitive Influence Maximization”已被WISE2018 錄用。

(7) PTS-Dep:用于云存儲的一套高性能兩方去重方法

盡管消息綁定加密方法能夠使得安全去重技術(shù)成為可能,但是基于低熵的窮舉攻擊也隨之成為安全去重技術(shù)的所面臨安全風(fēng)險之一。傳統(tǒng)的方法通過引入可信第三方,試圖防止窮舉攻擊。然而傳統(tǒng)的去重技術(shù)均是運用于兩方場景(只包含客戶端和服務(wù)端),因此該方法難以被廣泛應(yīng)用于實際場景中。出于部署復(fù)雜性的考慮,現(xiàn)有的存儲服務(wù)提供商更加傾向于兩方場景下的安全去重技術(shù)。但是,現(xiàn)有的兩方安全去重研究中存在性能較差或安全漏洞的問題。為了使得兩方安全去重技術(shù)既能夠獲得較好的系統(tǒng)性能,同時能夠抵制兩方場景下的安全威脅,本文通過總結(jié)現(xiàn)有安全去重的核心問題,針對性的提出一套高性能兩方去重方法,PTS-Dep。通過理論推導(dǎo)對我們的方法進行了安全證明。實驗結(jié)果表明我們的方法在Fslhome數(shù)據(jù)集上,比現(xiàn)有的兩方安全去重方法提高了92%的性能。

論文成果“PTS-Dep:A High-Performance Two-party Secure Deduplication for Cloud Storage”被The 20th IEEE International Conference on High Performance Computing and Communications (HPCC-2018,CCF C類會議)錄用。

7)完成東盟金融信息平臺、云翻譯數(shù)據(jù)中心等系統(tǒng)需求研究報告及信息平臺系統(tǒng)需求設(shè)計分析

研究成果可有針對性的提供中南半島各國各類數(shù)據(jù),為中國和中南半島各國的經(jīng)濟合作提供技術(shù)支持和服務(wù)。這將有助于把中國的發(fā)展戰(zhàn)略與中南半島各國發(fā)展藍圖對接,同中南半島各國的項目和企業(yè)對接,以及與中南半島各國的雙多邊合作機制和平臺對接,推進國際合作,服務(wù)于“一帶一路”建設(shè)。

8)數(shù)據(jù)庫安全系統(tǒng)

通過動態(tài)配置方式實現(xiàn)對主流數(shù)據(jù)庫中數(shù)據(jù)進行動態(tài)加密,無需更改用戶程序。數(shù)據(jù)以密文方式存儲于數(shù)據(jù)庫中,防止了數(shù)據(jù)被非法用戶使用,保障了數(shù)據(jù)安全。

9)終端安全系統(tǒng)

通過對客戶端各類操作授權(quán),數(shù)據(jù)硬件、軟件加密等各種控制方式,實現(xiàn)數(shù)據(jù)庫外數(shù)據(jù)安全保障。

三、下一步研究計劃

1 人物影響力分析:

Rashotte根據(jù)用戶行為以及其產(chǎn)生的效果,將社交影響力定義為人們由于和其他人或團體之間的交互而改變自身思想,感情,態(tài)度和行為的現(xiàn)象。社交影響力的定義具有明顯的因果性。影響用戶的社交影響力的因素主要有:現(xiàn)實生活中的地位,活躍程度,價值觀。反映社交影響力的因素主要有以下三個:(1) 社交網(wǎng)絡(luò)結(jié)構(gòu) (2) 社交網(wǎng)絡(luò)用戶之間的交互活動 (3) 社交網(wǎng)絡(luò)用戶所發(fā)布的信息。

社交網(wǎng)絡(luò)的結(jié)構(gòu)因素主要為用戶和用戶之間的連接形成的網(wǎng)絡(luò)圖。網(wǎng)絡(luò)圖中的節(jié)點的入度和出度,以及入向和出向的邊指向的節(jié)點的影響力都反映著節(jié)點用戶本身的影響力。顯而易見的是:用戶的粉絲越多,越有影響力,那么用戶就更有影響。社交網(wǎng)路中用戶的交互活動體現(xiàn)在:回復(fù),轉(zhuǎn)發(fā),收藏等活動上,用戶的不同活動反映了用戶之間的親密程度。社交網(wǎng)絡(luò)中用戶所發(fā)布的信息體現(xiàn)了用戶的專長信息。不同的政要可能分管不同的工作,擅長不同的領(lǐng)域(比如政治,歷史,外交……)。在社交活動中,信息往往是以話題的形式產(chǎn)生和傳播的。信息可能側(cè)重于不同的話題,這就造成了不同的話題具有不同的影響力。將話題作為刻畫影響力的因素,能夠從多個角度對用戶的影響力進行細致刻畫,在建立社交影響力模型時,可以直接從話題內(nèi)容和用戶對話題的參與程度構(gòu)建用戶和話題之間的聯(lián)系。

社交網(wǎng)路結(jié)構(gòu)的,用戶活動,以及話題信息三個因素從不同的角度對用戶的社交影響力進行了刻畫。話題信息,用戶活動信息反映了用戶在某一話題的特征。社交網(wǎng)絡(luò)結(jié)構(gòu)反映了用戶之間邊的特征。因此可以將上述的影響因素抽象為用戶的特征函數(shù)g, 邊的特征函數(shù)f,以及全局的特征函數(shù)h。綜合利用三個特征函數(shù)對用戶的不同影響力進行刻畫能夠更加準確的反映用戶的影響力。

話題因子圖模型(Topical Factor Graph (TFG) Model)根據(jù)三個特征函數(shù)對社交網(wǎng)路影響力分析進行建模。因此TFG模型有效地捕獲了地話題信息,節(jié)點的相似度,以及網(wǎng)絡(luò)結(jié)構(gòu)的信息。TFG模型包含了一個觀察變量 的集合,以及一個隱含變量的集合。 集合。隱含變量y在話題層面上刻畫了其他節(jié)點對節(jié)點 的影響力。TFG模型圖如下圖所示:

圖2 話題因子圖模型

上圖是TFG模型的實例,途中包含了觀察變量 ,以及相對應(yīng)的隱含向量 , 隱含節(jié)點之間的邊表明了在原有社交網(wǎng)絡(luò)中的社交關(guān)系。節(jié)點對應(yīng)的特征函數(shù)g描述了節(jié)點本地的信息,邊的特征函數(shù)f描述了圖模型中通過邊引起的節(jié)點之間的依賴關(guān)系,全局特征函數(shù)描述了對于網(wǎng)絡(luò)中所有節(jié)點的約束。特征函數(shù)的定義如下:

式中NB(i)代表了節(jié)點i的鄰居節(jié)點, 反映了節(jié)點 和節(jié)點 之間的話題相似性和交互強度, 代表了節(jié)點 對于話題z的重要性, 表示邊 的權(quán)重。在該應(yīng)用中,其表示用戶之間的交互活躍度。

邊的特征函數(shù)定義為節(jié)點之間是否存在依賴,即當(dāng)邊 存在時, 。全局特征函數(shù)如下:

全局特征函數(shù)用于約束模型能夠真正的代表節(jié)點。

當(dāng)模型能夠最好的擬合觀察到的數(shù)據(jù)時,其能夠最大化觀察到數(shù)據(jù)的概率,即:

參數(shù)學(xué)習(xí)

TFG模型的參數(shù)學(xué)習(xí)過程,可以通過對每條邊引入兩個變量集合 和 ,將普通的因子圖消息傳遞方法轉(zhuǎn)化為max-sum算法。 表示從節(jié)點i到節(jié)點j發(fā)送的消息。 表示從節(jié)點j到節(jié)點i發(fā)送的消息。 反映了從節(jié)點 的角度, 認為其受 影響的程度。 反映了從節(jié)點 的角度, 認為其影響 的程度。消息更新規(guī)則如下:

其中 是對歸一化的特征函數(shù)取log值得到的,

最后,社會影響力定義為:

2 投資環(huán)境分析子系統(tǒng)的指標庫管理、模型庫管理、運行監(jiān)測、現(xiàn)狀評價等模塊研究與開發(fā)

1.指標庫管理:在已有的系統(tǒng)數(shù)據(jù)中,選擇與投資環(huán)境相關(guān)的多種指標進行分類和管理,指標分為監(jiān)測類指標、預(yù)測預(yù)警類、評價類指標,檢測類指標主要是對這些指標進行統(tǒng)計分析,預(yù)測類指標要對這些指標進行預(yù)測分析和預(yù)警,對于預(yù)警指標要給出預(yù)警閾值,評價類指標用于現(xiàn)狀評價。同時指標按宏觀分析、微觀分析、按專業(yè)方向等分類,各類指標的選擇確定基于運行監(jiān)測和現(xiàn)狀評價的需求和指標體系的設(shè)計。指標庫的管理將使用MySQL關(guān)系型數(shù)據(jù)庫,同時可以對指標數(shù)據(jù)庫進行增、刪、改、查操作。

2.模型庫管理:模型庫的管理與指標庫的管理是類似的,模型庫主要管理系統(tǒng)所需的分析、預(yù)測、預(yù)警模型,同時將模型進行管理,模型包括輸入輸出和參數(shù)調(diào)整等,可以對模型進行增、刪、改、查功能,完善預(yù)測預(yù)警模型體系。

3.運行監(jiān)測:在完善指標庫的基礎(chǔ)上進投資環(huán)境的運行監(jiān)測,包括檢測指標的多維分析、進行趨勢分析和相關(guān)指標的預(yù)警。

經(jīng)濟運行監(jiān)測分析是對經(jīng)濟運行動態(tài)指標進行的連續(xù)性觀測及其規(guī)律性的揭示,是經(jīng)經(jīng)濟運行監(jiān)測分析不同于一般的統(tǒng)計分析。統(tǒng)計分析把數(shù)據(jù)的準確及時作為主要目標,而經(jīng)濟運行監(jiān)測分析除對數(shù)據(jù)的嚴格要求外,更加著重于對動態(tài)和情況的把握,并把對經(jīng)濟運行工作進行指導(dǎo)作為主要目標。確定經(jīng)濟運行監(jiān)測分析的對象和內(nèi)容,同時分析其上下關(guān)聯(lián)、影響并制約發(fā)展的其他因素。在分析的基礎(chǔ)上進行歸納,進行經(jīng)濟運行趨勢分析和預(yù)警。

在建立的數(shù)據(jù)倉庫的基礎(chǔ)上,運用多維分析技術(shù)對數(shù)據(jù)進行分析。多維分析技術(shù)主要包括:數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)(Data Warehousing)、數(shù)據(jù)抽取轉(zhuǎn)換加載技術(shù)(ETL-Extraction Transformation Loading)、聯(lián)機分析處理技術(shù)(OLAP-Online Analytical Process)、數(shù)據(jù)挖掘技術(shù)(Data Mining)、前端展現(xiàn)技術(shù)等。常見的多維分析操作主要有:鉆。ㄉ香@和下鉆)、切片、切塊、旋轉(zhuǎn)。鉆。恒@取是改變維度的層次,變換分析的粒度。鉆取包括上鉆和下鉆,上鉆是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù)的過程,減少了分析的維數(shù);下鉆則是相反,它是將高層次的匯總數(shù)據(jù)進行細化,深入到低層次細節(jié)數(shù)據(jù)的過程,增加了分析的維數(shù)。切片和切塊:在多維分析中,如果在某一維度上限定了一個值,則稱為對原有分析的一個切片,如果對多個維度進行限定,每個維度限定為一組取值范圍,則稱為對原有分析的一個切塊。在多維分析中,維度都是按某一順序進行顯示,如果變換維度 的順序和方向,或交換兩個維度的位置,則稱為旋轉(zhuǎn)。多維分析的實現(xiàn)主要包括以下四點,分別為:維度指標的定義,建立維度指標關(guān)聯(lián)關(guān)系,執(zhí)行維度和指標查詢,以及數(shù)據(jù)展現(xiàn)。在多維分析的基礎(chǔ)上,進行歸納分析,繪制監(jiān)測指標的運行曲線,運行趨勢分析。

例如對于產(chǎn)業(yè)園區(qū)可分別從經(jīng)濟環(huán)境分析、基礎(chǔ)設(shè)施建設(shè)及投資狀況、基礎(chǔ)產(chǎn)業(yè)發(fā)展研究分析、重點產(chǎn)業(yè)發(fā)展研究分析、主要重點企業(yè)經(jīng)營分析、主要產(chǎn)業(yè)園區(qū)發(fā)展分析、重大項目建設(shè)分析、政策比較分析、投資吸引力分析、投資分析及前景、產(chǎn)業(yè)投融資策略分析幾個主題建立多維分析模型,進行分析。

監(jiān)測預(yù)警以預(yù)警模型為基礎(chǔ)。預(yù)警預(yù)型可以采用多變量預(yù)警模型,多變量模型又可以分為靜態(tài)統(tǒng)計模型與模型庫。之后,根據(jù)檢測分析的需求,設(shè)計建立分主題的數(shù)據(jù)倉庫和多維分析模型,可以對具體的指標實行監(jiān)測預(yù)警。建立檢測模型,對指標進行檢測,同時模型庫管理中錄入預(yù)警模型,在檢測的時候結(jié)合預(yù)警模型,在分析的基礎(chǔ)上進行歸納,對指標庫的某些指標進行預(yù)警,從而進行經(jīng)濟運型和動態(tài)非統(tǒng)計模型。靜態(tài)統(tǒng)計模型如下:

① 線性判別模型。多元線性判別模型是運用多元統(tǒng)計分析方法中的判別分析建立起來的,它是根據(jù)一定的樣本資料,建立判別函數(shù)、確定判定區(qū)域,以對指標進行監(jiān)測預(yù)警。

② 主成分預(yù)測模型。該模型也形成一個線性判定函數(shù)式,其形式類似判別分析模型。不過該模型是運用多元統(tǒng)計分析中的主成分分析方法,通過提煉綜合因子形成主成分,并利用主成分建立起來的。

③ 簡單線性概率模型。該模型是利用多元線性回歸方法建立起來的,其形式是:y=c+β1x1+β2x2+…+βkxk。其中:c、β1、β2、…、βk為系數(shù);x1、x2、…、xk為 k個預(yù)測變量。

④ logit模型和probit模型。它們也分別叫作對數(shù)比率模型和概率單位模型,都屬于概率模型,是在克服簡單的線性概率模型的基礎(chǔ)上并分別用logit 和probit概率函數(shù)建立起來的。logit模型的形式為:ln[p÷(1-p)]=α0+β1x1+β2x2+…+βkxk。其中:p取值為0、1; p為概率;x1,x2,…,xk為k個預(yù)測變量。

預(yù)警可以綜合多種預(yù)警模型,實現(xiàn)預(yù)警目標。

4.現(xiàn)狀評價:在已有的評價體系的基礎(chǔ)上,認真分析當(dāng)前現(xiàn)狀評價的新需求,進一步完善評價體系。同時綜合運用主成分分析、聚類分析、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等多方法融合,同時結(jié)合經(jīng)濟相關(guān)計量分析法形成復(fù)合型現(xiàn)狀評價模型,利用大數(shù)據(jù)分實現(xiàn)投資環(huán)境的現(xiàn)狀評價。

3、各系統(tǒng)開發(fā)

1)“云翻譯數(shù)據(jù)中心”的軟件開發(fā)

2)“生產(chǎn)線自動控制子系統(tǒng)”的軟件開發(fā)

3)“大數(shù)據(jù)應(yīng)用——城市建設(shè)和港口建設(shè)預(yù)測”的軟件開發(fā)

4)“中國—中南半島經(jīng)濟走廊沿線國家金融平臺子系統(tǒng)”的軟件開發(fā)

4、在完成上述1、2兩點分析的前提下,補充完善相關(guān)需求分析,并完成“數(shù)據(jù)挖掘——人物背景分析”的軟件開發(fā)、“數(shù)據(jù)挖掘——投資環(huán)境分析”的軟件開發(fā)

(課題組供稿)                         

(責(zé)編:孫爽、閆妍)
荣昌县| 玉山县| 东乡县| 长岭县| 墨竹工卡县| 射洪县| 康平县| 额敏县| 印江| 青神县| 宁化县| 元阳县| 凤翔县| 沙洋县| 晋江市| 桃源县| 霍邱县| 勃利县| 肥乡县| 平江县| 疏附县| 扎鲁特旗| 宁海县| 红原县| 个旧市| 岑溪市| 黔西| 汝阳县| 郧西县| 忻州市| 巴塘县| 高碑店市| 鸡东县| 白河县| 新干县| 雷波县| 理塘县| 阿克陶县| 隆回县| 昌都县|