一、 研究進(jìn)展情況
1、研究計劃總體執(zhí)行情況及各子課題進(jìn)展情況;
自課題立項以來,課題組已經(jīng)在根據(jù)課題總體設(shè)計和各個子課題的研究任務(wù)開
展研究工作。主要進(jìn)展情況如下:
(一)基于大數(shù)據(jù)的宏觀經(jīng)濟預(yù)測體系優(yōu)化與指標(biāo)生成與應(yīng)用研究。
課題總體設(shè)計中,圍繞基于大數(shù)據(jù)的宏觀經(jīng)濟預(yù)測體系優(yōu)化,主要開展四個專題的研究。專題一:基于大數(shù)據(jù)對勞動力市場指標(biāo)優(yōu)化研究;專題二:基于大數(shù)據(jù)對金融市場指標(biāo)優(yōu)化研究;專題三:基于大數(shù)據(jù)對商品市場指標(biāo)優(yōu)化研究;專題四:基于大數(shù)據(jù)對國際貿(mào)易指標(biāo)優(yōu)化研究。目前已經(jīng)針對專題一、專題二、專題三進(jìn)行了研究。具體研究內(nèi)容包括:
(1) 基于大數(shù)據(jù)對勞動力市場指標(biāo)優(yōu)化研究
勞動就業(yè)狀況的短期趨勢在現(xiàn)有的統(tǒng)計體系下無法得到精確的反映,而人群移動的特征是挖掘其就業(yè)特征的有效途徑。課題組運用中國電信上海市的移動信令數(shù)據(jù),初步實現(xiàn)了對人群移動軌跡的數(shù)據(jù)挖掘分析。能夠有效識別不同類型的群移動軌跡特征,從而作為預(yù)測勞動就業(yè)狀況的輔助指標(biāo)。
傳統(tǒng)理論中普遍使用“隨機游走理論”來刻畫個人行動規(guī)律,隨機游走模型以Levy Flight 模型為基礎(chǔ)不斷拓展。而近幾年的文獻(xiàn)利用大數(shù)據(jù),發(fā)現(xiàn)隨機游走模型對個人行動規(guī)律的刻畫能力存在不足,認(rèn)為個人行動半徑更符合“冪律分布”模型;诂F(xiàn)有文獻(xiàn)研究,本課題探索通過數(shù)據(jù)變換、將個人行動的“冪律分布”模型轉(zhuǎn)化為線性模型,并編寫適用于超大用戶群的并行聚類算法來實現(xiàn)對個人行動規(guī)律的分析。本研究主要采用個體電信手機用戶每個月出現(xiàn)在不同基站頻次的統(tǒng)計數(shù)據(jù),并按照頻次大小進(jìn)行排序,該頻次排序數(shù)據(jù)基本符合“冪律分布”,在對該數(shù)據(jù)取對數(shù)化后,可以得到變換后的線性模型,從而實現(xiàn)簡化數(shù)據(jù)分析難度。
目前所采用的電信手機數(shù)據(jù)包含2016 年6 月至2016 年11 月的共計16295554名用戶,用戶行為數(shù)據(jù)總?cè)萘窟_(dá)到150GB,主要采用有限混合模型(Finite mixed5model)來對用戶的行動規(guī)律進(jìn)行聚類分析。
必須編寫全新分布式多線程算法,應(yīng)對海量用戶數(shù)據(jù)的分析。即使在簡化的線性模型假設(shè)條件下,面對如此大規(guī)模的數(shù)據(jù)集也存在著許多技術(shù)上的難點,主要包括:1、在大數(shù)據(jù)情境下,觀測數(shù)據(jù)量大大超出傳統(tǒng)模型應(yīng)用范圍(本課題每個月涉及觀測用戶量約為700 至800 萬,是傳統(tǒng)研究的上千倍之多,對計算資源的要求提高);2、現(xiàn)有軟件包(Python、R 語言等)中的現(xiàn)成計算模塊均采用單線程計算,效率低(經(jīng)前期測試,對一個包含10 萬觀測用戶量的模型進(jìn)行聚類分析,需耗時10 小時,而觀測用戶量的增長將帶來指數(shù)級別的計算耗時增長)。目前的成果主要是深入研究了現(xiàn)有混合有限模型算法,將其中的若干關(guān)鍵步驟全部進(jìn)行分布式計算改寫,同時所有計算模塊均充分利用Python 語言現(xiàn)有的高效率數(shù)學(xué)計算模塊,大大提高了大數(shù)據(jù)情境下的用戶聚類分析。初步研究結(jié)果表明,對于上海電信手機用戶而言,其用戶行動規(guī)律可以分為5 個大類,且分類情況隨時間推移呈現(xiàn)出較為穩(wěn)定的特征。通過研究可以看到用戶行為類型可以分為5 類,這對于用于下一步細(xì)分勞動力市場特征而言并不足夠,要想實現(xiàn)研究目標(biāo),需要計算獲得更為細(xì)分、具體的聚類結(jié)果。下一步計劃是進(jìn)一步改進(jìn)聚類算法,將用戶行動特征直線分解為“固定趨勢”與“移動趨勢”兩類,分開進(jìn)行用戶聚類分析;使用基站的地理位置以及周邊建筑屬性(利用百度地圖API),進(jìn)行第三個維度的聚類分析;結(jié)合上述聚類分析結(jié)果,得到高維度、高精度的用戶行動規(guī)律分類結(jié)果,進(jìn)一步對勞動力市場關(guān)鍵指標(biāo)進(jìn)行分析。
(2) 基于大數(shù)據(jù)對金融市場指數(shù)進(jìn)行優(yōu)化研究
宏觀經(jīng)濟環(huán)境變化、金融體系自身演化積累,投資者群體性行為、市場監(jiān)管管理政策調(diào)整、國際資本流動和市場環(huán)境變化、內(nèi)幕交易等都有可能引發(fā)金融市場全系統(tǒng)風(fēng)險。金融大數(shù)據(jù)的獲取使得系統(tǒng)性風(fēng)險的潛在影響因子更容易被識別和跟蹤。本課題主要從兩個方面對該問題進(jìn)行了研究。第一,基于P2P 數(shù)據(jù)對互聯(lián)網(wǎng)金融的風(fēng)險進(jìn)行度量。從“網(wǎng)貸之家”上選取了469 家P2P 平臺作為研究對象,通過網(wǎng)絡(luò)爬蟲獲取平臺全部貸款的數(shù)據(jù),選取若干相應(yīng)的基礎(chǔ)變量,通過模糊數(shù)學(xué)、無量綱處理得到每個平臺的相應(yīng)的基礎(chǔ)變量得分,通過因子分析與層次分析法得到每個平臺的風(fēng)險指數(shù)。第二,基于事件驅(qū)動和復(fù)雜網(wǎng)絡(luò)的證券市場風(fēng)險監(jiān)控。結(jié)合大數(shù)據(jù)和人工智能技術(shù),構(gòu)建機構(gòu)投資者的社交網(wǎng)絡(luò),通過機器學(xué)習(xí),挖掘各類可能導(dǎo)致金融市場波動的事件與股價之間的關(guān)聯(lián)關(guān)系,觀察機構(gòu)投資者在事件發(fā)生后的投資行為變化,從而對金融市場的風(fēng)險予以預(yù)判。
(3) 利用大數(shù)據(jù)對商品市場指數(shù)進(jìn)行優(yōu)化研究
根據(jù)課題研究計劃,主要是兩個方面的工作。第一,基于電商平臺的商品交易和價格數(shù)據(jù),對商品價格的短期波動進(jìn)行跟蹤,用于CPI 指數(shù)的補充和完善。目前已經(jīng)利用網(wǎng)絡(luò)爬蟲技術(shù),獲取了淘寶、天貓、京東等電商平臺將近1 億種商品的價格、屬性以及評價等交易數(shù)據(jù),正在進(jìn)行數(shù)據(jù)清洗、整理等工作。第二,基于高頻用電數(shù)據(jù),構(gòu)建工商業(yè)景氣指數(shù),進(jìn)行行業(yè)景氣度之間的復(fù)雜動態(tài)關(guān)系的分析并進(jìn)行預(yù)測。目前已經(jīng)針對上海市全部工商業(yè)用戶的96 點數(shù)據(jù)進(jìn)行了分析,構(gòu)建了基于工商業(yè)高頻用電數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò),利用馬爾科夫狀態(tài)轉(zhuǎn)移模型,對工商業(yè)景氣程度的樣本外預(yù)測能力大大提升。
(二)基于大數(shù)據(jù)的宏觀經(jīng)濟預(yù)測理論和建模研究
子課題二為本課題的理論研究,側(cè)重于從宏觀經(jīng)濟預(yù)測的基礎(chǔ)理論和模型比較
出發(fā),對基于大數(shù)據(jù)的預(yù)測理論創(chuàng)新和模型構(gòu)建進(jìn)行研究。目前主要是對下列專
題進(jìn)行了系統(tǒng)調(diào)研、梳理清楚理論研究的主要著眼點。
(1)傳統(tǒng)宏觀經(jīng)濟預(yù)測體系研究
傳統(tǒng)的宏觀經(jīng)濟預(yù)測體系建立在各國政府所發(fā)布的經(jīng)濟景氣指標(biāo)的基礎(chǔ)上,其背后的理論支撐是經(jīng)濟周期理論。通過基于統(tǒng)計指標(biāo)構(gòu)建景氣指數(shù)與各類信心指數(shù),通過合理分類,從而對經(jīng)濟未來走勢進(jìn)行預(yù)測,例如:Stock-Waston 型景氣指數(shù)、企業(yè)景氣指數(shù)、企業(yè)家信心指數(shù)、經(jīng)濟學(xué)家信心指數(shù)、CCI、宏觀經(jīng)濟景氣指數(shù)、PMI 和國服景氣指數(shù)等。對于這類指標(biāo)而言,往往會設(shè)定某一閾值,當(dāng)真實指標(biāo)超過該閾值時,就判斷經(jīng)濟未來向好,反之則經(jīng)濟將步入下滑階段。此外,抽樣調(diào)研方法也常常被用于對行業(yè)、整體經(jīng)濟走勢的判斷,例如在景氣調(diào)查法中,企業(yè)景氣調(diào)查(Business Survey)又被稱為是商情調(diào)查,采取抽樣調(diào)查調(diào)研方法對企業(yè)乃至整個行業(yè)的走勢進(jìn)行判斷。
(2)基于大數(shù)據(jù)對宏觀經(jīng)濟預(yù)測的應(yīng)用研究
現(xiàn)有的基于大數(shù)據(jù)對宏觀經(jīng)濟預(yù)測進(jìn)行應(yīng)用的研究主要從兩方面展開,第一,從數(shù)據(jù)量上進(jìn)行完善,第二,從方法上使用大數(shù)據(jù)分析方法逐步對計量分析進(jìn)行完善。
從數(shù)據(jù)量角度而言,目前的研究傾向于納入更高頻率的時間序列變量(如季
度、月度、日度甚至是小時級別數(shù)據(jù))、建立超大型面板數(shù)據(jù)集(如微觀企業(yè)和個
體層級數(shù)據(jù)、金融數(shù)據(jù))以及考慮新的數(shù)據(jù)類型(如社交媒體文本數(shù)據(jù)、搜索引擎搜索行為數(shù)據(jù)和衛(wèi)星圖像數(shù)據(jù)等)。
從方法角度而言,現(xiàn)有的研究也逐漸涵蓋更多的模型領(lǐng)域,如對傳統(tǒng)計量方法的改進(jìn)方面,主要包含動態(tài)多因子模型、擴展VAR 模型和X-GARCH 模型等;針對海量數(shù)據(jù)、高頻數(shù)據(jù)方面,采用貝葉斯回歸模型、混頻回歸模型和主成分分析等;在引入機器學(xué)習(xí)模型方面,則會采用支持向量機、隨機森林樹和神經(jīng)網(wǎng)絡(luò)模型等。
(3)基于大數(shù)據(jù)的宏觀經(jīng)濟預(yù)測理論和方法研究
宏觀經(jīng)濟預(yù)測方法主要被劃分兩大類:以經(jīng)濟學(xué)家主導(dǎo)的經(jīng)濟預(yù)測模型和以計算機學(xué)家主導(dǎo)的機器學(xué)習(xí)預(yù)測模型。
經(jīng)濟預(yù)測模型有著成熟的經(jīng)濟理論作為支撐,能夠很好的解釋經(jīng)濟運行的關(guān)鍵影響因素。這一類模型主要分為三類:結(jié)構(gòu)化計量預(yù)測模型、非結(jié)構(gòu)化時間序列預(yù)測模型以及動態(tài)隨機一般均衡預(yù)測模型。
對結(jié)構(gòu)化計量預(yù)測模型而言,一旦當(dāng)理論和現(xiàn)實情況產(chǎn)生偏差時,模型的預(yù)
測能力就會大大降低。而非結(jié)構(gòu)化預(yù)測模型通常需要較大的數(shù)據(jù)集來進(jìn)行分析,因此通常應(yīng)用在金融市場的預(yù)測,對于數(shù)據(jù)頻度較低的宏觀經(jīng)濟預(yù)測,非結(jié)構(gòu)化預(yù)測模型通常表現(xiàn)欠佳。均衡預(yù)測模型(DSGE)則結(jié)合了兩類模型的優(yōu)點,使得對模型系數(shù)進(jìn)行估計存在很大的困難,從而限制了模型維數(shù)的增長,進(jìn)而降低了模型的預(yù)測能力。
機器學(xué)習(xí)模型從數(shù)據(jù)本身為起點,讓計算機模擬人類對現(xiàn)實經(jīng)驗總結(jié)的能力,訓(xùn)練出一套具有擬合和預(yù)測能力的模型。機器學(xué)習(xí)模型主要可以分為有監(jiān)督學(xué)習(xí),算法(有具體預(yù)測目標(biāo))和無監(jiān)督學(xué)習(xí)算法(沒有具體預(yù)測目標(biāo))兩類。監(jiān)督學(xué)
習(xí)算法可以有效的將預(yù)測目標(biāo)進(jìn)行結(jié)果分類,部分研究機構(gòu)業(yè)已將機器學(xué)習(xí)運用
到對宏觀經(jīng)濟部分指標(biāo)進(jìn)行預(yù)測上,這些應(yīng)用結(jié)果顯示這類監(jiān)督學(xué)習(xí)算法的預(yù)測
能力較好。
(4)現(xiàn)有宏觀經(jīng)濟預(yù)測模型研究存在的主要問題
在國外的機構(gòu)中,例如國際貨幣基金組織(IMF)、歐洲中央銀行(ECB)和
美聯(lián)儲(Fed)等政府機構(gòu)均有自己的宏觀預(yù)測模型,高盛、摩根斯丹利、摩根大
通和美林等國際投行也擁有自己的宏觀預(yù)測模型。這些宏觀經(jīng)濟模型具有較好的
短期趨勢預(yù)測能力,但是面對一些突發(fā)事件時,往往存在著預(yù)測能力不足的缺陷。
中國目前急需構(gòu)建針對短期經(jīng)濟波動及長期經(jīng)濟走勢進(jìn)行預(yù)測的宏觀經(jīng)濟預(yù)測模型,來填補這一塊的空缺。
(5)基于大數(shù)據(jù)的宏觀經(jīng)濟預(yù)測指標(biāo)生成與應(yīng)用研究
早期大數(shù)據(jù)在宏觀經(jīng)濟領(lǐng)域的運用主要集中于提高傳統(tǒng)方法下預(yù)測數(shù)據(jù)的精度,例如Bernd Brandl et al.(2005)利用德國159 個經(jīng)濟指標(biāo)變量,通過數(shù)據(jù)挖掘方法GA(Genetic Algorithm)預(yù)測工業(yè)產(chǎn)值、政府長期債券、失業(yè)率和通貨膨脹率四個變量。由麻省理工大學(xué)發(fā)起的百萬價格項目(Billion Price Project,BPP),則通過收集全球各個國家的各類在線零售價格數(shù)據(jù),形成一系列實時價格指數(shù),以期對現(xiàn)有的CPI 價格體系以及匯率體系進(jìn)行一定程度的修正和完善。
隨著數(shù)據(jù)采集能力的提升,能夠獲得的數(shù)據(jù)類型和數(shù)量都大大提升,因此現(xiàn)在的大數(shù)據(jù)應(yīng)用逐漸向構(gòu)建新型指標(biāo)方向發(fā)展。Hyunyoung Choi(2010)將市場趨勢分析工具Google Trends 應(yīng)用于提高傳統(tǒng)ARIMA 時間序列模型對經(jīng)濟指標(biāo)預(yù)測的準(zhǔn)確性,將傳統(tǒng)計量方法的預(yù)測結(jié)果與改進(jìn)后的預(yù)測方法相比較,發(fā)現(xiàn)后者對申請失業(yè)救濟人數(shù)的預(yù)測比前者更為準(zhǔn)確,長期和短期模型的樣本外絕對平均誤差分別下降了12.9%和15.7%。Toole 等(2015)則利用手機通信數(shù)據(jù)生成勞動力市場變化預(yù)警指標(biāo),通過與官方的失業(yè)率數(shù)據(jù)進(jìn)行回歸分析,發(fā)現(xiàn)這一新生成的指標(biāo)能夠?qū)趧恿κ袌鼍哂刑崆邦A(yù)測的能力,當(dāng)期失業(yè)率預(yù)測準(zhǔn)確率為95%,提前一季度的預(yù)測準(zhǔn)確率也高達(dá)85%。從官方應(yīng)用而言,美聯(lián)儲每月會發(fā)布Aruoba-Diebold-Scotti business conditions index,該指數(shù)綜合了每日期限利率溢價、每周首次申請失業(yè)救濟金人數(shù)、每月新增就業(yè)人口、每月的工業(yè)產(chǎn)出、個人可支配收入、貿(mào)易商品銷售額、每季度實際GDP 這幾類頻度不同的數(shù)據(jù),從而可以高頻、精準(zhǔn)地反應(yīng)經(jīng)濟狀況。國內(nèi)將大數(shù)據(jù)運用于宏觀經(jīng)濟分析最為成熟的指數(shù)應(yīng)屬克強指數(shù),經(jīng)過近幾
年國內(nèi)電商、IT 行業(yè)的發(fā)展,基于大數(shù)據(jù)來預(yù)測經(jīng)濟景氣程度和價格指數(shù)的機構(gòu)
主要包括百度、阿里、大宗商品數(shù)據(jù)等。
2、調(diào)查研究及學(xué)術(shù)交流情況
(1) 文獻(xiàn)與數(shù)據(jù)調(diào)研收集情況
針對現(xiàn)有數(shù)據(jù),通過對統(tǒng)計資料電子化、電子數(shù)據(jù)整合等方式,采用結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行存儲。目前已對現(xiàn)有數(shù)據(jù)進(jìn)行梳理,除上述統(tǒng)計年鑒外,本課題組還以MySQL 數(shù)據(jù)庫、HBase 數(shù)據(jù)庫以及分布式文件等形式收集了大量社會經(jīng)濟數(shù)據(jù)、能源使用數(shù)據(jù)、污染物數(shù)據(jù)以及衛(wèi)星數(shù)據(jù)。
除此之外,宏觀經(jīng)濟的重要指標(biāo)就是能源使用情況,在能源使用中,一方面需要使用一次能源如煤炭以及原油,但是這樣的使用情況往往只能代表經(jīng)濟的生產(chǎn)側(cè),在需求側(cè),往往是多種能源的相互組合。為了更充分的進(jìn)行宏觀經(jīng)濟運行情況的描述,課題組收集了上海市居民煤氣、天然氣使用數(shù)據(jù),每月電費以及付款方式,工商業(yè)園區(qū)細(xì)分用電數(shù)據(jù),商業(yè)樓宇的分項計量數(shù)據(jù),并結(jié)合中國移動提供的樓宇人群數(shù)據(jù)以及高頻氣象數(shù)據(jù),通過上述數(shù)據(jù)的關(guān)聯(lián)、配合,進(jìn)一步加強宏觀經(jīng)濟現(xiàn)時預(yù)測的研究。依托復(fù)旦大學(xué)已初步建設(shè)完成的大數(shù)據(jù)工場平臺,能夠更好的實現(xiàn)對現(xiàn)有數(shù)據(jù)的整合,能夠利用更先進(jìn)的數(shù)據(jù)管理手段與硬件計算資源,為本研究提供技術(shù)支撐。目前大數(shù)據(jù)工場主要采用NVidia 顯卡來搭建高性能科學(xué)計算平臺,能夠為本研究的機器學(xué)習(xí)任務(wù)提供高性能加速支持
在2016 年9 月,課題組就上海市居民需求側(cè)基本信息、用能情況、環(huán)保意識、物價認(rèn)知等進(jìn)行了入戶調(diào)研,其主要規(guī)模為3000 人,最終有效問卷為2976 份。調(diào)研數(shù)據(jù)在能源數(shù)據(jù)以及氣象數(shù)據(jù)的基礎(chǔ)上,為我們的研究補充了有效的微觀個體社會經(jīng)濟與人口數(shù)據(jù),這能進(jìn)一步讓我們了解不同人群特征、社會特征對于用戶用能以及宏觀經(jīng)濟運行的影響。目前結(jié)合調(diào)研數(shù)據(jù),課題組已經(jīng)完成了需求側(cè)綠色能源使用潛力研究,用戶能源與社會商品需求異質(zhì)性研究等分析。
文獻(xiàn)收集主要圍繞上述研究內(nèi)容展開,除上述關(guān)于宏觀經(jīng)濟預(yù)測的相關(guān)文獻(xiàn)
外,課題組已經(jīng)收集有關(guān)能源使用、生產(chǎn)以及需求,經(jīng)濟運行用能情況以及環(huán)境
污染等方面的論文300 余篇,課題組成員已經(jīng)精讀100 余篇,其主要發(fā)表在
《American Economic Review》、《Review of Economics Studies》、《Econometrica》、
《Quarterly Journal of Economics》、《The RAND Journal of Economics》、《Journal of Public Economics 》、《Journal of Environmental Economics and Management 》、
《Applied Economics》、《經(jīng)濟研究》、《管理世界》等國內(nèi)外頂尖期刊。課題組相關(guān)研究人員已經(jīng)根據(jù)精讀文獻(xiàn)撰寫了文獻(xiàn)綜述,總結(jié)其中創(chuàng)新方法并將其應(yīng)用于
課題有關(guān)能源以及公關(guān)經(jīng)濟運行的領(lǐng)域中。
課題組同時根據(jù)研究內(nèi)容,收集有關(guān)金融以及復(fù)雜網(wǎng)絡(luò)的相關(guān)文獻(xiàn)50 余篇,
其主要發(fā)表于《Journal of Political Economy》、《Journal of Financial Economics》、《Journal of Finance》、《Journal of Banking and Finance》以及《管理世界》等頂級期刊。同時精讀多本有關(guān)金融市場以及社會網(wǎng)絡(luò)相關(guān)書籍,并已經(jīng)制作講解視頻。
(2)學(xué)術(shù)交流情況
2016 至2017,課題組多次參加由知名機構(gòu)舉辦的國際學(xué)術(shù)會議,包括2015至2017 的三次EAERE(歐洲能源與環(huán)境年會),首屆smart grid 研討會等,在會上課題組報告了目前主要研究成果,并與多國學(xué)者進(jìn)行了交流。
2016 至2017,復(fù)旦大學(xué)與美國杜克大學(xué)曾多次互派人員進(jìn)行學(xué)術(shù)交流,并在
期間進(jìn)行了多次學(xué)術(shù)研討以及學(xué)術(shù)會議,主要針對我國能源使用、宏觀經(jīng)濟發(fā)展
狀況等方向的學(xué)術(shù)研究進(jìn)行了交流。目前已經(jīng)確定的研究方向及成果包括,使用
數(shù)據(jù)驅(qū)動的能源使用研究,我國需求側(cè)新型能源使用潛力研究等三篇文章。
同時,課題組也和美國斯坦福大學(xué)、伯克利大學(xué)建立了學(xué)術(shù)合作,通過互派人員進(jìn)行了充分的學(xué)術(shù)交流,并根據(jù)各自研究方向以及數(shù)據(jù)特點進(jìn)行了中美比較,目前已經(jīng)確定的研究方向包括基于高頻數(shù)據(jù)的用能情況分析等。
2017 年6 月,課題組成員在北京共同參加我國電力體制改革與能源環(huán)境情況改進(jìn)國際學(xué)術(shù)會議,并對我國目前電力市場建設(shè)與可再生能源發(fā)展進(jìn)行了報告,計劃于2017 年10 月在上海進(jìn)行需求側(cè)能源大數(shù)據(jù)使用與分析國際研討會,主要邀請美國斯坦福大學(xué)、杜克大學(xué)等知名高校學(xué)者參加。
3、成果宣傳推介情況
項目啟動以來,本項目的數(shù)據(jù)準(zhǔn)備和收集工作耗時很長。且大數(shù)據(jù)的收集、整理涉及到較多的數(shù)據(jù)安全方面的障礙,經(jīng)過一年半左右時間基本達(dá)到預(yù)期目標(biāo)。今年上半年以來已經(jīng)形成多篇工作論文和投稿論文;诖髷(shù)據(jù)的工商業(yè)景氣預(yù)測指數(shù)在2017 年貴陽數(shù)博會展出,獲得媒體的關(guān)注。文匯報、新民晚報、新華社等都進(jìn)行了報道。后期將加強成果發(fā)布、簡報報送、?陡宓裙ぷ鳌
二、 研究成果情況
1. 基于工商業(yè)用電數(shù)據(jù)的景氣指數(shù)研究
(1)主要內(nèi)容
a.研究了傳統(tǒng)的經(jīng)濟景氣指數(shù)構(gòu)建和相關(guān)模型已經(jīng)解決的問題和存在的缺陷;
b.為解決傳統(tǒng)模型的問題,設(shè)計利用大數(shù)據(jù)技術(shù)研究微觀行業(yè)和整體產(chǎn)業(yè)結(jié)構(gòu)的關(guān)系的模型,研究反映產(chǎn)業(yè)結(jié)構(gòu)的高頻經(jīng)濟景氣指數(shù)構(gòu)建方法,研究短期預(yù)測方法;
c.基于最能反映經(jīng)濟運行狀況的克強指數(shù)中行業(yè)用電量數(shù)據(jù),利用復(fù)雜網(wǎng)絡(luò)模型研究了行業(yè)間生產(chǎn)和發(fā)展的相互聯(lián)系、引導(dǎo)演化關(guān)系,并研究了產(chǎn)業(yè)結(jié)構(gòu)網(wǎng)絡(luò)的性質(zhì),包括行業(yè)間先導(dǎo)滯后關(guān)系、某個行業(yè)生產(chǎn)運行發(fā)生變化對整個網(wǎng)絡(luò)的影響、每個行業(yè)在整個網(wǎng)絡(luò)中的重要性程度、每個行業(yè)重要性滿足的概率分布、網(wǎng)絡(luò)的穩(wěn)定性及隨時間演化等。
e.在充分了解產(chǎn)業(yè)結(jié)構(gòu)及演化發(fā)展?fàn)顩r的基礎(chǔ)上,構(gòu)建了包含產(chǎn)業(yè)結(jié)構(gòu)的綜合經(jīng)濟景氣指數(shù),該指數(shù)由各個行業(yè)的景氣狀況和行業(yè)間相關(guān)關(guān)系綜合而成。隨著時間推移,各個行業(yè)景氣發(fā)生變化,產(chǎn)業(yè)結(jié)構(gòu)發(fā)生調(diào)整,行業(yè)間關(guān)聯(lián)關(guān)系變化等,都會在景氣指數(shù)中及時反映出來。
f.研究經(jīng)濟景氣指數(shù)的動態(tài)網(wǎng)絡(luò)預(yù)測方法,由于真實世界中的行業(yè)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)隨時都在發(fā)生改變,動態(tài)貝葉斯網(wǎng)絡(luò)模型可以捕捉這些變化并反映在經(jīng)濟景氣指數(shù)中。通過產(chǎn)業(yè)結(jié)構(gòu)的復(fù)雜網(wǎng)絡(luò)圖構(gòu)建動態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行景氣的預(yù)測。
(2)主要觀點
基于工商業(yè)行業(yè)高頻用電數(shù)據(jù)研究了行業(yè)間關(guān)聯(lián)關(guān)系,在考慮產(chǎn)業(yè)結(jié)構(gòu)的基礎(chǔ)上構(gòu)建了日度綜合經(jīng)濟景氣指數(shù),實現(xiàn)對宏觀經(jīng)濟現(xiàn)狀的精確描述和短期趨勢預(yù)測,為宏觀調(diào)控和經(jīng)濟政策制定提供理論依據(jù),為投資和工商業(yè)生產(chǎn)發(fā)展提供決策依據(jù)。
(3)學(xué)術(shù)價值
國際上流行的衡量經(jīng)濟景氣情況的方法為合成指數(shù)法(Composite Index),即以一個國家的工業(yè)增長水平作為參考,選取一些宏觀統(tǒng)計數(shù)據(jù),劃分為先行指標(biāo)組、一致指標(biāo)組和滯后指標(biāo)組,以構(gòu)建經(jīng)濟景氣分析指標(biāo)體系,分析和預(yù)測經(jīng)濟周期波動和景氣變動的轉(zhuǎn)折點。但是這些指標(biāo)往往是月度或季度數(shù)據(jù),且非常宏觀,無法反映經(jīng)濟景氣指數(shù)變動背后的原因,也無法反映產(chǎn)業(yè)結(jié)構(gòu)調(diào)整帶來的變化,更不能進(jìn)行短期及時的預(yù)測。基于工商業(yè)電力大數(shù)據(jù)的宏觀經(jīng)濟景氣指數(shù)研究,結(jié)合反映經(jīng)濟變動的最直觀的高頻電力大數(shù)據(jù),構(gòu)建新的反映宏觀經(jīng)濟狀況的高頻景氣指數(shù),從微觀行業(yè)著手,從局部出發(fā)進(jìn)行整體經(jīng)濟產(chǎn)業(yè)結(jié)構(gòu)的研究,可以充分挖掘影響宏觀經(jīng)濟景氣的各種不同因素以及產(chǎn)業(yè)結(jié)構(gòu)特征和變化的影響。除此之外,利用動態(tài)貝葉斯網(wǎng)絡(luò)的方法,實現(xiàn)對宏觀經(jīng)濟現(xiàn)狀的精確仿真和短期趨勢預(yù)測,相比于傳統(tǒng)的預(yù)測模型精度和性能均較優(yōu)。
其中,復(fù)雜網(wǎng)絡(luò)的局部和全局特性能夠清晰地刻畫組成復(fù)雜系統(tǒng)的不同元素之間的相互關(guān)系和信息流動過程,利用復(fù)雜網(wǎng)絡(luò)的方法研究不同行業(yè)之間以及行業(yè)和宏觀經(jīng)濟的關(guān)系,使得研究人員可以通過純數(shù)據(jù)的分析得到與以往基于經(jīng)濟學(xué)理論和行業(yè)生產(chǎn)特性分析相同甚至更重要的結(jié)果,而不需要進(jìn)行長期的經(jīng)濟學(xué)理論知識的學(xué)習(xí)和訓(xùn)練,降低了研究分析的門檻。
(4)社會影響
景氣指數(shù)是反映各行業(yè)運行狀況的定量指標(biāo),用來反映行業(yè)的經(jīng)濟景氣變化狀況。準(zhǔn)確預(yù)測行業(yè)景氣指數(shù)對生產(chǎn)活動的開展以及宏觀經(jīng)濟調(diào)控有著重要的意義。隨著信息化的發(fā)展,社交網(wǎng)絡(luò)的影響日益擴大,非結(jié)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),過去低頻數(shù)據(jù)中的因果關(guān)系發(fā)生了一些變化,不同過程之間的相互作用變得越來越復(fù)雜,同時隨著中國經(jīng)濟進(jìn)入新常態(tài),產(chǎn)業(yè)結(jié)構(gòu)調(diào)整變得越發(fā)頻繁,對預(yù)測的時效性和準(zhǔn)確性提出了新的要求,傳統(tǒng)的經(jīng)濟研究和經(jīng)濟景氣指數(shù)滿足不了現(xiàn)時預(yù)測的要求。基于工商業(yè)電力大數(shù)據(jù)的高頻宏觀經(jīng)濟景氣指數(shù)構(gòu)建和預(yù)測,可以充分挖掘影響宏觀經(jīng)濟景氣的各種不同因素以及產(chǎn)業(yè)結(jié)構(gòu)特征和變化的影響,實現(xiàn)了對宏觀經(jīng)濟現(xiàn)狀的精確描述和短期趨勢預(yù)測,為宏觀調(diào)控和經(jīng)濟政策制定提供理論依據(jù),為投資和工商業(yè)生產(chǎn)發(fā)展提供決策依據(jù)。
2. 基于電信數(shù)據(jù)的勞動力就業(yè)市場預(yù)測。
(1)基本內(nèi)容
傳統(tǒng)理論中普遍使用“隨機游走理論”來刻畫個人行動規(guī)律,隨機游走模型以Levy Flight 模型為基礎(chǔ)不斷拓展。而近幾年的文獻(xiàn)利用大數(shù)據(jù),發(fā)現(xiàn)隨機游走模型對人行動規(guī)律的刻畫能力存在不足,認(rèn)為個人行動半徑更符合“冪律分布”模型;诂F(xiàn)有文獻(xiàn)研究,本課題探索通過數(shù)據(jù)變換、將個人行動的“冪律分布”模型轉(zhuǎn)化為線性模型,并編寫適用于超大用戶群的并行聚類算法來實現(xiàn)對個人行動規(guī)律的分析。本研究主要采用個體電信手機用戶每個月出現(xiàn)在不同基站頻次的統(tǒng)計數(shù)據(jù),并按照頻次大小進(jìn)行排序,該頻次排序數(shù)據(jù)基本符合“冪律分布”,在對該數(shù)據(jù)取對數(shù)化后,可以得到變換后的線性模型,從而實現(xiàn)簡化數(shù)據(jù)分析難度。目前所采用的電信手機數(shù)據(jù)包含2016 年6 月至2016 年11 月的共計16295554名用戶,用戶行為數(shù)據(jù)總?cè)萘窟_(dá)到150GB,主要采用有限混合模型(Finite mixed model)來對用戶的行動規(guī)律進(jìn)行聚類分析。
目前的成果主要是深入研究了現(xiàn)有混合有限模型算法,將其中的若干關(guān)鍵步驟全部進(jìn)行分布式計算改寫,同時所有計算模塊均充分利用Python 語言現(xiàn)有的高效率數(shù)學(xué)計算模塊,大大提高了大數(shù)據(jù)情境下的用戶聚類分析。
(2)主要觀點
初步研究結(jié)果表明,對于上海電信手機用戶而言,其用戶行動規(guī)律可以分為5個大類,且分類情況隨時間推移呈現(xiàn)出較為穩(wěn)定的特征。每一類用戶行動規(guī)律中的行為參數(shù)有較大差異,表明不同類型的用戶在行為規(guī)律中存在著較大的差異。
通過研究可以看到用戶行為類型可以分為5 類,這對于用于下一步細(xì)分勞動力市場特征而言并不足夠,要想實現(xiàn)研究目標(biāo),需要計算獲得更為細(xì)分、具體的聚類結(jié)果。下一步計劃是進(jìn)一步改進(jìn)聚類算法,將用戶行動特征直線分解為“固定趨勢”與“移動趨勢”兩類,分開進(jìn)行用戶聚類分析;使用基站的地理位置以及周邊建筑屬性(利用百度地圖API),進(jìn)行第三個維度的聚類分析;結(jié)合上述聚類分析結(jié)果,得到高維度、高精度的用戶行動規(guī)律分類結(jié)果,進(jìn)一步對勞動力市場關(guān)鍵指標(biāo)進(jìn)行分析。
(3)學(xué)術(shù)價值
第一,在研究方法方面,本研究通過利用電信數(shù)據(jù)提出了一個用于對個體行為規(guī)律進(jìn)行聚類的分析框架,本研究認(rèn)為所有個體行為人隸屬于具有不同行為規(guī)律的群體,因而不同群體的行為參數(shù)是不同的,需要使用聚類方法來進(jìn)行有效識別。而現(xiàn)有國內(nèi)外研究將所有個體視作是同質(zhì)群體,因此其移動規(guī)律全部服從相同的概率分布函數(shù)。實證結(jié)果則印證了本研究所提出的觀點。
第二,在分析技術(shù)方面,本研究對現(xiàn)有的有限混合模型進(jìn)行重新編程,實現(xiàn)了在分布式多線程模式下的高性能計算,大大縮短了計算時間、極大提升了分析效率。且這種計算能力可以進(jìn)行無縫拓展,適應(yīng)未來更大尺度和更大數(shù)據(jù)量的模型計算。
(4)社會影響力
本研究的初步成果在2017 年貴陽大數(shù)據(jù)展上進(jìn)行展示,收獲了廣泛的關(guān)注與好評。其中有包括北京聯(lián)通等在內(nèi)的多家運營商均表示出了強烈的合作研究意愿,希望能夠通過將本研究的分析方法運用到不同地區(qū)、不同類型的數(shù)據(jù)之上,來對不同地區(qū)的勞動力市場進(jìn)行細(xì)致分析。
課題組供稿