舊版網(wǎng)站入口

站內(nèi)搜索

中外關(guān)系數(shù)據(jù)庫(kù)建設(shè)中期檢查報(bào)告

2019年11月18日14:13來(lái)源:全國(guó)哲學(xué)社會(huì)科學(xué)工作辦公室

一、研究進(jìn)展情況

主要內(nèi)容:

一、研究計(jì)劃總體執(zhí)行情況及各子課題進(jìn)展情況

為了評(píng)估中國(guó)周邊外交環(huán)境,課題組整理了中外關(guān)系數(shù)據(jù)來(lái)分析中國(guó)與外交關(guān)系。

二、調(diào)查研究及學(xué)術(shù)交流情況

(1)調(diào)研數(shù)據(jù)及文獻(xiàn)整理運(yùn)用

為準(zhǔn)確衡量中外關(guān)系,本課題探究了大量相關(guān)數(shù)據(jù)庫(kù),包括:

一、中國(guó)權(quán)威的外交新聞網(wǎng)站

二、西方整理的各類(lèi)別專(zhuān)項(xiàng)數(shù)據(jù)庫(kù):關(guān)于軍事沖突,有烏普薩拉沖突數(shù)據(jù)項(xiàng)目(Uppsala Conflict Data Program)與奧斯陸國(guó)際和平研究機(jī)構(gòu)(International Peace Research Institute, Oslo)聯(lián)合制作的“武裝沖突數(shù)據(jù)集”(UCDP/PRIO Armed Conflict Dataset, Version 4-2014a)。關(guān)于國(guó)內(nèi)政治治理,有Property Right Protection(PRS Group’s International Country Risk Guide)。關(guān)于經(jīng)濟(jì)風(fēng)險(xiǎn),有PRS Group’s International Country Risk Guide。國(guó)內(nèi)風(fēng)險(xiǎn)有IMF數(shù)據(jù),投資風(fēng)險(xiǎn)主要從法律政策變動(dòng)風(fēng)險(xiǎn)、貿(mào)易保護(hù)主義風(fēng)險(xiǎn)、能源價(jià)格波動(dòng)風(fēng)險(xiǎn)、通貨膨脹風(fēng)險(xiǎn)、匯率風(fēng)險(xiǎn)等進(jìn)行評(píng)估。關(guān)于社會(huì)狀況,包括人口密度、民族數(shù)量, “世界概況(World Fact book)”。關(guān)于與中國(guó)經(jīng)貿(mào)關(guān)系,即與中國(guó)貿(mào)易往來(lái),有COW數(shù)據(jù)庫(kù)的“國(guó)際貿(mào)易數(shù)據(jù)集”(International Trade Dataset, version 3.0)。關(guān)于各國(guó)的軍費(fèi)開(kāi)支,有斯德哥爾摩沖突數(shù)據(jù)庫(kù)。

三、西方整理的外交事件數(shù)據(jù)庫(kù):本課題組參考了大量關(guān)于沖突的事件數(shù)據(jù)。其中重要的數(shù)據(jù)庫(kù)有以下幾項(xiàng):國(guó)際學(xué)界常用的奧布萊恩(O’Brien)研究的綜合沖突早期預(yù)警系統(tǒng)(the Integrated Conflict Early Warning System),該系統(tǒng)采用從多種渠道獲得關(guān)于175個(gè)國(guó)家的650萬(wàn)條新聞,并用機(jī)器編碼將之建構(gòu)成數(shù)據(jù)集。賓夕法尼亞州立大學(xué)的“計(jì)算事件數(shù)據(jù)系統(tǒng)”項(xiàng)目(The Computational Event Data System),該項(xiàng)目嘗試將網(wǎng)絡(luò)上的大量關(guān)于沖突的新聞轉(zhuǎn)換成事件數(shù)據(jù)!罢蝿(dòng)蕩預(yù)測(cè)項(xiàng)目組”(Political Instability Task Force, 簡(jiǎn)稱(chēng)PITF,此前也稱(chēng)國(guó)家失敗預(yù)測(cè)項(xiàng)目組State Failure Task Force),該項(xiàng)目試圖預(yù)測(cè)各國(guó)政治動(dòng)蕩,建立對(duì)于全球政治穩(wěn)定性問(wèn)題的預(yù)警系統(tǒng)。

四、引入網(wǎng)絡(luò)大數(shù)據(jù): “綜合沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System,ICEWS),以及使用電腦自動(dòng)編碼的google提供的 GDELT全球事件數(shù)據(jù)項(xiàng)目(GDELT Event Database)。其他大數(shù)據(jù)來(lái)源,包括GIS地理信息系統(tǒng)(Geographic Information System或 Geo-Information system)和全球夜間燈光數(shù)據(jù)。

五、全球新聞媒體,包括《紐約時(shí)報(bào)》、《華盛頓郵報(bào)》、英國(guó)《鏡報(bào)》、《衛(wèi)報(bào)》、《路透社》、《法國(guó)新聞社》、新加坡《聯(lián)合早報(bào)》、《海峽時(shí)報(bào)》、馬來(lái)西亞《新海峽時(shí)報(bào)》 、《先鋒報(bào)》、《當(dāng)今大馬》、《星報(bào)》 、《星洲日?qǐng)?bào)》 、印尼《雅加達(dá)郵報(bào)》、《指南針報(bào)》、菲律賓《星報(bào)》、《馬尼拉公報(bào)》、泰國(guó)《曼谷郵報(bào)》柬埔寨《柬華日?qǐng)?bào)》、韓國(guó)韓聯(lián)社、朝鮮朝中社、俄羅斯俄通社、日本《朝日新聞》、《讀賣(mài)新聞》。

本課題組根據(jù)以上資料來(lái)源,通過(guò)整理海量新聞事件,建立了1950年至今的中國(guó)與美國(guó)、日本、俄羅斯、英國(guó)、法國(guó)、德國(guó)、印度、巴基斯擔(dān)、澳大利亞、越南、印尼、韓國(guó)、歐盟外交關(guān)系事件庫(kù)。與傳統(tǒng)的數(shù)據(jù)庫(kù)往往以年為單位不同,這一數(shù)據(jù)庫(kù)對(duì)于雙邊關(guān)系的衡量細(xì)化到以月為單位。例如,研究人員可以得到每個(gè)月中美關(guān)系正面事件的分值,負(fù)面事件的分值以及中美關(guān)系的分值。而且從具體事件看,該數(shù)據(jù)庫(kù)也細(xì)化到了以日為單位,例如研究者可以知道哪一天發(fā)生了雙邊首腦會(huì)晤或外長(zhǎng)會(huì)晤等外交事件。每一個(gè)事件均被細(xì)分成多個(gè)維度。因此,這一數(shù)據(jù)庫(kù)對(duì)于學(xué)者們研究中國(guó)外交的特點(diǎn),發(fā)現(xiàn)其規(guī)律具有明顯幫助。

(2)學(xué)術(shù)會(huì)議

2015年10月至今,本課題組每月召開(kāi)中國(guó)對(duì)外數(shù)據(jù)統(tǒng)計(jì)分析會(huì)議,包括中國(guó)各高校專(zhuān)家和助理學(xué)生15人左右,至今已召開(kāi)40多次。會(huì)議對(duì)每個(gè)月的中外關(guān)系進(jìn)行數(shù)據(jù)挖掘、量化衡量、規(guī)律探究、經(jīng)驗(yàn)總結(jié)和關(guān)系預(yù)測(cè),有效提高了本課題組對(duì)中外關(guān)系的預(yù)測(cè)和預(yù)警成功率。

圍繞課題內(nèi)容,課題組舉辦了各類(lèi)國(guó)內(nèi)的學(xué)術(shù)會(huì)議,包括:2015年12月舉行的“從清華路徑到道義現(xiàn)實(shí)主義”學(xué)術(shù)研討會(huì),2018年7月舉行的 “中美關(guān)系再思考”研討會(huì), 2018年7月舉辦的“大數(shù)據(jù)與國(guó)際關(guān)系研究”學(xué)術(shù)研討會(huì)。

(3)學(xué)術(shù)交流

在項(xiàng)目進(jìn)展過(guò)程中,本課題組與機(jī)構(gòu)進(jìn)行了密切的交流與合作。

(4)國(guó)際合作

課題組也舉辦相關(guān)的國(guó)際會(huì)議,2016年12月在清華大學(xué)舉行了“中國(guó)學(xué)者爭(zhēng)論國(guó)際關(guān)系”國(guó)際研討會(huì),該會(huì)議由澳大利亞格里菲斯大學(xué)和清華大學(xué)國(guó)際關(guān)系研究院聯(lián)合主辦,來(lái)自格里菲斯大學(xué)、美利堅(jiān)大學(xué)、劍橋大學(xué)、亞利桑那州立大學(xué)、內(nèi)華達(dá)大學(xué)以及國(guó)內(nèi)各高校的20余位專(zhuān)家學(xué)者參加此次會(huì)議。

三、成果宣傳推介情況

(1)成果發(fā)布會(huì)

由于本課題成果尚未徹底完成,當(dāng)前還沒(méi)有召開(kāi)成果發(fā)布會(huì)

(2)《工作簡(jiǎn)報(bào)》報(bào)送情況、國(guó)家社科基金專(zhuān)刊投稿及采用情況

本課題組將在下一階段積極將現(xiàn)有成果投稿給《工作簡(jiǎn)報(bào)》和國(guó)際社科基金專(zhuān)刊。

四、研究中存在的主要問(wèn)題、改進(jìn)措施,研究心得、意見(jiàn)建議

(1)主要問(wèn)題

本課題總體進(jìn)展順利,相關(guān)研究成果陸續(xù)完成。研究成果的主要問(wèn)題是:首先,本項(xiàng)課題只研究了1950年至今中國(guó)與七大國(guó)(美、日、俄、英、法、印、德)和五個(gè)周邊國(guó)家(韓、巴、印尼、越南、澳大利亞)的外交關(guān)系數(shù)據(jù),囿于人力所限,沒(méi)能對(duì)中國(guó)與世界所有國(guó)家的外交關(guān)系進(jìn)行數(shù)據(jù)梳理。其原因在于,為了確保數(shù)據(jù)的精確性,本課題只采用了人工編碼的方法。

其次,課題在進(jìn)程方面與國(guó)家社科規(guī)劃辦溝通不及時(shí)。

(2)改進(jìn)措施

對(duì)于以上兩項(xiàng)問(wèn)題,將通過(guò)以下措施進(jìn)行改進(jìn)。

首先,采取人工編碼與機(jī)器編碼相結(jié)合的方法,爭(zhēng)取將中外關(guān)系衡量擴(kuò)展到世界各國(guó)。

其次,進(jìn)行及時(shí)的溝通匯報(bào)。

(3)研究心得

首先,本數(shù)據(jù)庫(kù)是關(guān)于中國(guó)外交關(guān)系的第一個(gè)具體到國(guó)別的雙邊關(guān)系數(shù)據(jù)庫(kù)。在國(guó)際關(guān)系領(lǐng)域,目前國(guó)外已經(jīng)有一些比較成熟和權(quán)威的數(shù)據(jù)庫(kù),然而,國(guó)外的數(shù)據(jù)庫(kù)大多集中于西方資料,缺少與中國(guó)相關(guān)的數(shù)據(jù),因此我國(guó)需要建立與本國(guó)相關(guān)的數(shù)據(jù)。在數(shù)據(jù)建設(shè)中,關(guān)鍵是要找到可以量化的變量,通過(guò)對(duì)變量的數(shù)據(jù)進(jìn)行整理,可以有助與于推進(jìn)學(xué)界研究進(jìn)展。本數(shù)據(jù)庫(kù)解決了對(duì)中國(guó)外交相關(guān)變量和指標(biāo)的衡量問(wèn)題:關(guān)于中國(guó)外交,本數(shù)據(jù)庫(kù)不僅僅是衡量雙邊關(guān)系的具體程度和分值,還按照所屬領(lǐng)域性質(zhì),將所有相關(guān)維度區(qū)分為經(jīng)濟(jì)類(lèi)、安全類(lèi)、政治類(lèi)和文化類(lèi)。例如,對(duì)于中國(guó)對(duì)于某一國(guó)家的外交關(guān)系,我們可以根據(jù)中國(guó)與這一國(guó)家的經(jīng)濟(jì)往來(lái)、貿(mào)易協(xié)議、軍事交流以及首腦互訪(fǎng)等指標(biāo)加以衡量。其中,上述指標(biāo)都可以數(shù)量化,因此,就可以建立對(duì)中國(guó)對(duì)不同國(guó)別的雙邊關(guān)系的數(shù)據(jù)庫(kù)。

第二、本課題組在分解事件維度時(shí),按照國(guó)際關(guān)系專(zhuān)業(yè)的特性,將每一事件分成眾多維度。由于以上維度都可以直接變成國(guó)際關(guān)系領(lǐng)域的研究變量,這可以直接幫助研究人員進(jìn)行研究。

第三、本課題組借助大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,有效地提高了預(yù)測(cè)的準(zhǔn)確率。本課題組對(duì)于數(shù)據(jù)維度、變量和指標(biāo)進(jìn)行了精心的整理。不同于ICEWS和GDELT采取自動(dòng)編碼的方式,本課題組采用人工編碼,確保了數(shù)據(jù)的準(zhǔn)確性。從數(shù)據(jù)維度上看ICEWS在CAMEO系統(tǒng)中總共有20大類(lèi)超過(guò)300種不同的事件類(lèi)型。而GDELT又將300多類(lèi)的事件最終分成四個(gè)大類(lèi),即言語(yǔ)合作(verbal cooperation)、現(xiàn)實(shí)合作(material cooperation)、言語(yǔ)對(duì)抗(verbal conflict)和現(xiàn)實(shí)對(duì)抗(material conflict)。但以上維度容易忽視事件發(fā)生雙方的具體外交人員及其職務(wù)、以及合作或沖突的程度。

第四、本數(shù)據(jù)建立了完善的入庫(kù)數(shù)據(jù)的真?zhèn)闻袆e機(jī)制,能夠更真實(shí)地表達(dá)雙邊關(guān)系的特性。在大數(shù)據(jù)時(shí)代,有些研究人員會(huì)直接根據(jù)爬蟲(chóng)等數(shù)據(jù)挖掘技術(shù),將相關(guān)新聞報(bào)道直接算入數(shù)據(jù),但是這會(huì)導(dǎo)致數(shù)據(jù)庫(kù)噪聲太大,需要多重清洗。如果清洗不干凈的話(huà),可能會(huì)出現(xiàn)以下問(wèn)題:對(duì)于某一事件,可能有多個(gè)新聞來(lái)源報(bào)道,則在挖掘時(shí)可能重復(fù)記入,導(dǎo)致數(shù)據(jù)庫(kù)不精確。此外,機(jī)器編碼還有可能在對(duì)事件編碼時(shí)錯(cuò)誤抽取關(guān)鍵變量。

(4)意見(jiàn)建議

本課題組根據(jù)中外關(guān)系的大量數(shù)據(jù),能夠觀(guān)察到中外關(guān)系變化的趨勢(shì),對(duì)于中外關(guān)系的變化能進(jìn)行成功預(yù)警,并且可以探究中國(guó)外交的深層原因、嘗試找到可行的解決方案。

首先,成功對(duì)于中美關(guān)系的競(jìng)爭(zhēng)狀態(tài)進(jìn)行了早期預(yù)警。早在2017年,課題組就發(fā)布報(bào)告《2018年中美關(guān)系惡化但無(wú)冷戰(zhàn)危險(xiǎn)》。

其次、成功預(yù)測(cè)中韓關(guān)系在薩德事件后不會(huì)明顯惡化。對(duì)于中韓關(guān)系,本課題組預(yù)測(cè),盡管“薩德”事件發(fā)生后,有人擔(dān)心未來(lái)中韓關(guān)系會(huì)因此而持續(xù)惡化,但是根據(jù)本課題組對(duì)2000年以來(lái)中韓關(guān)系變化的衡量,課題組認(rèn)為“薩德”事件對(duì)中韓關(guān)系的負(fù)面影響不太嚴(yán)重,雙邊關(guān)系惡化程度不大(《“薩德”事件后中韓關(guān)系不會(huì)過(guò)度惡化》,《國(guó)際政治科學(xué)》2016年第4期)。根據(jù)課題組對(duì)中韓關(guān)系的衡量,自建交以來(lái),中韓關(guān)系逐年穩(wěn)步提升。在下圖中比較了中韓關(guān)系和中日關(guān)系自2000年以來(lái)的變化,從中可以看出,在2000年,中韓關(guān)系與中日關(guān)系水平接近,然而“釣魚(yú)島事件”等矛盾導(dǎo)致中日關(guān)系急劇惡化,相較而言,中韓關(guān)系曲線(xiàn)穩(wěn)中有升,因此課題組預(yù)測(cè),“薩德”問(wèn)題對(duì)中韓關(guān)系未來(lái)變化的負(fù)面影響依然有限。

第三、課題組成功對(duì)于中越關(guān)系作出了正確判斷。對(duì)于中越關(guān)系,根據(jù)我們的長(zhǎng)期跟蹤研究,認(rèn)為南海仲裁案對(duì)中越關(guān)系的影響是負(fù)面的,但尚不足以致使雙邊關(guān)系嚴(yán)重惡化。南海仲裁案結(jié)果發(fā)布后,越南政府無(wú)意改變南海地區(qū)的現(xiàn)狀,也無(wú)意為了南海爭(zhēng)端與中國(guó)全面對(duì)抗,故此中越關(guān)系可以維持現(xiàn)狀。(《2017年底前中越關(guān)系不會(huì)嚴(yán)重惡化》《國(guó)際政治科學(xué)》2016年第1卷第3期)

二、研究成果情況

主要內(nèi)容:

一、代表性成果簡(jiǎn)介

(1)基本內(nèi)容

研究成果分為三部分:首先、建立了兩個(gè)數(shù)據(jù)庫(kù):①定量衡量的1950-2014年的中國(guó)與大國(guó)關(guān)系數(shù)據(jù)庫(kù),②定量衡量的1950-2014年的中國(guó)與周邊中等國(guó)家關(guān)系數(shù)據(jù)庫(kù)。

第三、完成了專(zhuān)著 1 本,發(fā)表中文 CSSCI 論文 18篇。自2015年以來(lái)課題組每月跟蹤中外關(guān)系變化,并且每季度發(fā)表對(duì)于中外關(guān)系衡量結(jié)果的報(bào)告,在CSSCI期刊《國(guó)際政治科學(xué)》發(fā)表了11篇中國(guó)對(duì)外關(guān)系的預(yù)測(cè)報(bào)告:此外,課題組成員在權(quán)威的國(guó)際關(guān)系期刊上,根據(jù)本數(shù)據(jù)庫(kù)和定量衡量發(fā)表了一系列相關(guān)研究,期刊包括《中國(guó)社會(huì)科學(xué)》、《世界經(jīng)濟(jì)與政治》和《當(dāng)代亞太》等。課題組就在整理數(shù)據(jù)庫(kù)的基礎(chǔ)上,出版了專(zhuān)著1本:閻學(xué)通與齊皓的著作《中國(guó)與周邊中等國(guó)家關(guān)系》(社會(huì)科學(xué)文獻(xiàn)出版2015年版)。

(2)主要觀(guān)點(diǎn)

本課題的主要目標(biāo)是結(jié)合大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)模型對(duì)中外關(guān)系進(jìn)行衡量、預(yù)測(cè),有效提出對(duì)外環(huán)境合理應(yīng)對(duì)的建議。

(一)雙邊關(guān)系衡量賦值

本項(xiàng)目主要方法是對(duì)雙邊關(guān)系進(jìn)行定量衡量,核心是解決從事件賦值向關(guān)系賦值的轉(zhuǎn)化,首先是對(duì)數(shù)據(jù)來(lái)源進(jìn)行選擇。其次是將數(shù)據(jù)來(lái)源中與我們的研究對(duì)象和研究范圍有關(guān)的事件進(jìn)行篩選和歸類(lèi)。第三是在“沖突-合作”這一維度上,根據(jù)對(duì)雙邊關(guān)系的影響力大小將已發(fā)生事件轉(zhuǎn)換成一維的事件分值。第四是把事件分值進(jìn)一步轉(zhuǎn)換成對(duì)雙邊關(guān)系的影響值。最后把由事件導(dǎo)致的雙邊關(guān)系的變化值疊加在上個(gè)月雙邊關(guān)系的分值上,得到當(dāng)月的雙邊關(guān)系分值。

要有效衡量國(guó)家雙邊關(guān)系友好或敵對(duì)程度,其核心問(wèn)題是解決從事件賦值向關(guān)系賦值的轉(zhuǎn)化。我們的基本設(shè)想是,雙邊關(guān)系是由眾多事件組成的,這些事件隨著時(shí)間的推移形成了一個(gè)“事件流”,對(duì)雙邊關(guān)系的衡量需要在事件累積和流動(dòng)兩個(gè)維度上同時(shí)進(jìn)行衡量。也就是說(shuō),對(duì)事件影響力進(jìn)行累積是我們衡量的起點(diǎn),測(cè)量事件影響力隨時(shí)間流動(dòng)的變化是衡量的過(guò)程,雙邊關(guān)系現(xiàn)狀是衡量的終點(diǎn)。將事件分值轉(zhuǎn)化為雙邊關(guān)系分值的合理性,將取決于轉(zhuǎn)化后的雙邊關(guān)系分值能否與實(shí)際經(jīng)驗(yàn)相一致,至少要有很強(qiáng)的相似性。為此,我們?cè)O(shè)計(jì)了如下定量衡量雙邊關(guān)系的流程。為此,我們?cè)O(shè)計(jì)了如下定量衡量雙邊關(guān)系的流程。

(二)中國(guó)外交數(shù)據(jù)庫(kù)編碼

為了更好地體現(xiàn)中外關(guān)系,使數(shù)據(jù)庫(kù)中的各個(gè)維度有利于對(duì)中外關(guān)系的研究,本課題組對(duì)具體事件的編碼維度做了如下劃分。按照外交事件的具體內(nèi)容劃分細(xì)類(lèi),對(duì)于具體事件的不同維度,課題組將之劃分為五大類(lèi)別。

綜上可知,以上編碼是我們可以針對(duì)具體研究問(wèn)題進(jìn)行研究的基礎(chǔ)。

(三)雙邊關(guān)系預(yù)測(cè)

本課題組根據(jù)中外關(guān)系的大量數(shù)據(jù),能夠觀(guān)察到中外關(guān)系變化的趨勢(shì),對(duì)于中外關(guān)系的變化能進(jìn)行成功預(yù)警,并且可以探究中國(guó)外交的深層原因、嘗試找到可行的解決方案。

在對(duì)采集的數(shù)據(jù)建模中,本課題組也采用了大量適宜的模型,以提高預(yù)測(cè)的準(zhǔn)確率和對(duì)深層因果機(jī)制的探究。課題組綜合采用傳統(tǒng)回歸方法和機(jī)器學(xué)習(xí)算法,包括以下模型和方法: ①Logit模型,這一回歸對(duì)因變量為分類(lèi)數(shù)據(jù)的情況進(jìn)行回歸,最后得出自變量對(duì)因變量概率變化的影響。②面板數(shù)據(jù)模型,包括動(dòng)態(tài)面板模型和空間面板模型,本研究應(yīng)用面板數(shù)據(jù)模型從抽象層面綜合分析中國(guó)與諸大國(guó)和周邊國(guó)家歷年來(lái)外交關(guān)系走勢(shì),判斷核心影響因素,進(jìn)而預(yù)測(cè)未來(lái)中國(guó)外交的情況、蹠r(shí)間序列預(yù)測(cè):回歸預(yù)測(cè)對(duì)自變量的要求很高,若不能窮盡所有有影響的自變量,則可能預(yù)測(cè)準(zhǔn)確度較差。時(shí)間序列預(yù)測(cè)是根據(jù)變量的過(guò)去變化推斷其未來(lái)趨勢(shì)。適用于自變量過(guò)于復(fù)雜,難以建立精確模型的情況。時(shí)間序列分析的實(shí)質(zhì)是找到數(shù)據(jù)間的相關(guān)性,最后留下白噪聲(white noise)。在看似無(wú)序的數(shù)據(jù)中,分離出規(guī)律和無(wú)序。本課題將這一模型應(yīng)用于雙邊關(guān)系預(yù)測(cè)。④樸素貝葉斯模型,這一模型是根據(jù)特征預(yù)測(cè)出其類(lèi)別。但是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類(lèi)效果不好。而在屬性相關(guān)性較小時(shí),樸素貝葉斯性能最為良好。課題組采用這一模型進(jìn)行事件預(yù)測(cè),即預(yù)測(cè)未來(lái)三個(gè)月是否會(huì)發(fā)生首腦訪(fǎng)問(wèn)等重大事件。⑤隱馬爾科夫模型(HMM),該模型假設(shè)模型的當(dāng)前狀態(tài)僅僅依賴(lài)于前面的幾個(gè)狀態(tài)。n階馬爾科夫模型中n是影響下一個(gè)狀態(tài)的(前)n個(gè)狀態(tài)。 一階馬爾科夫過(guò)程包括狀態(tài)、pi向量和狀態(tài)轉(zhuǎn)移矩陣。本課題組將之應(yīng)用于對(duì)中國(guó)與美國(guó)、日本、俄羅斯、英國(guó)、法國(guó)、印度和德國(guó)的雙邊關(guān)系進(jìn)行預(yù)測(cè)。預(yù)測(cè)的時(shí)間段為未來(lái)三個(gè)月雙邊關(guān)系的變化。預(yù)測(cè)的內(nèi)容包括兩方面:一方面是關(guān)系走向預(yù)測(cè),即未來(lái)三個(gè)月雙邊關(guān)系是升、降還是平?另一方面是變化程度預(yù)測(cè),即如果預(yù)測(cè)未來(lái)某個(gè)月雙邊關(guān)系會(huì)上升,那么將上升多少?⑥基于不完全信息的信號(hào)博弈。

(3)學(xué)術(shù)價(jià)值

本課題的學(xué)術(shù)價(jià)值是:首先、本數(shù)據(jù)庫(kù)是以中文權(quán)威材料為基礎(chǔ)的第一個(gè)最全的中國(guó)外交數(shù)據(jù)庫(kù)。盡管西方也有關(guān)于中國(guó)的研究。但往往來(lái)源于西方媒體,其研究結(jié)論可能受報(bào)道偏向引導(dǎo)。本數(shù)據(jù)庫(kù)資料來(lái)源權(quán)威。除此之外,本數(shù)據(jù)庫(kù)根據(jù)課題組成員的語(yǔ)言和研究專(zhuān)長(zhǎng),發(fā)掘研究對(duì)象國(guó)相關(guān)政府機(jī)構(gòu)和重要媒體對(duì)雙邊關(guān)系信息的發(fā)布和報(bào)道。這樣的雙向數(shù)據(jù)收集可以增加信息來(lái)源的多樣性,通過(guò)比對(duì)雙方對(duì)同一事實(shí)的不同反應(yīng),有助于全面地記錄事實(shí)并增加賦值的客觀(guān)性。這為中國(guó)與周邊國(guó)家關(guān)系研究提供了大量原始數(shù)據(jù)和研究方法方面的啟示,近幾年來(lái)出現(xiàn)大量應(yīng)用“數(shù)據(jù)庫(kù)”數(shù)據(jù)或者以此方法研究中國(guó)與其他國(guó)家關(guān)系的學(xué)術(shù)論文。

其次,本數(shù)據(jù)庫(kù)借鑒了大數(shù)據(jù)GDELT,對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行了補(bǔ)充,找出國(guó)際關(guān)系大數(shù)據(jù)挖掘的具體領(lǐng)域。同時(shí),本課題組也采用大數(shù)據(jù)應(yīng)用的機(jī)器學(xué)習(xí)算法,如隱馬爾科夫(HMM)模型、神經(jīng)網(wǎng)絡(luò)分析等,用于對(duì)未來(lái)的關(guān)系變化的預(yù)測(cè)。建立在數(shù)據(jù)基礎(chǔ)上的關(guān)系研究可以為中國(guó)與周邊國(guó)家外交提供有價(jià)值的關(guān)系走向預(yù)測(cè),幫助政策機(jī)構(gòu)了解中國(guó)與周邊國(guó)家關(guān)系的階段性趨勢(shì)。

(4)社會(huì)影響

本課題組對(duì)相關(guān)數(shù)據(jù)進(jìn)行了長(zhǎng)期細(xì)致整理,得到了社會(huì)的廣泛關(guān)注。

研究成果受到同行廣泛好評(píng):此項(xiàng)數(shù)據(jù)庫(kù)被國(guó)內(nèi)外學(xué)者廣泛應(yīng)用:例如美國(guó)哈佛大學(xué)教授Iain Johnston應(yīng)用該數(shù)據(jù)分析中美關(guān)系,參見(jiàn)Alastair Iain Johnston, “Stability and Instability in Sino-US Relations: A Respnse to Yan Xuetong’s Superficial Friendship Theory”, The Chinese Journal of International Politics, 2011, Vol.4. No.1, pp.5-29。國(guó)內(nèi)學(xué)者李巍、張萌、龐昌偉、郭銳、王簫軻、徐奇淵、陳思翀等也應(yīng)用此數(shù)據(jù)庫(kù)進(jìn)行研究,成果發(fā)表于各CSSCI雜志!

第三、本課題的核心成果——中外關(guān)系數(shù)據(jù)受到社會(huì)廣泛關(guān)注,被中國(guó)電子科技集團(tuán)公司第二十八研究所采用。

三、下一步研究計(jì)劃

在項(xiàng)目推進(jìn)的這幾年期間,大數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等建模技術(shù)突飛猛進(jìn),為了更好提高項(xiàng)目研究質(zhì)量,與時(shí)俱進(jìn),本項(xiàng)目希望在以下方面繼續(xù)展開(kāi)進(jìn)一步的深入研究工作。

1、對(duì)相關(guān)數(shù)據(jù)進(jìn)行深入挖掘與整理

(1)本項(xiàng)目組希望將中外關(guān)系數(shù)據(jù)從原來(lái)的1950-2014年擴(kuò)展至1950年-2018年

由于本項(xiàng)目立項(xiàng)時(shí)間為2015年,因此項(xiàng)目組在初期工作時(shí)將外交數(shù)據(jù)庫(kù)的整理截止時(shí)間設(shè)定為2014年。

(2)本項(xiàng)目組希望引入GDEELT等大數(shù)據(jù)作為新的數(shù)據(jù)來(lái)源

在本項(xiàng)目組的初期工作中,為了保證數(shù)據(jù)的權(quán)威性,采用的數(shù)據(jù)來(lái)源主要為國(guó)內(nèi)權(quán)威新聞媒體和網(wǎng)站。然而在英文大數(shù)據(jù)中,GDELT全球事件數(shù)據(jù)項(xiàng)目(GDELT Event Database)提供了全球100多種語(yǔ)言的媒體、網(wǎng)頁(yè)上的事件信息,時(shí)間跨度為1979年至今。數(shù)據(jù)量上億,包括國(guó)家、事件類(lèi)型、地理位置等多個(gè)維度。因此本項(xiàng)目組希望在下一階段將GDELT納入數(shù)據(jù)來(lái)源,增加本數(shù)據(jù)庫(kù)的完整性和權(quán)威性。

(3)本項(xiàng)目組希望擴(kuò)大雙邊關(guān)系衡量的研究對(duì)象數(shù)量

在項(xiàng)目組的初期工作中,研究對(duì)象包括大國(guó)和周邊國(guó)家:美國(guó)、日本、蘇聯(lián)(俄羅斯)、英國(guó)、法國(guó)、德國(guó)、印度、韓國(guó)、印尼、澳大利亞、越南、巴基斯坦。在下一階段的工作中,本項(xiàng)目組希望可以將既有的數(shù)據(jù)庫(kù)中對(duì)雙邊關(guān)系的衡量作為測(cè)試集,采用交叉驗(yàn)證( Cross Validation) 法,將從大樹(shù)數(shù)中挖掘到的數(shù)據(jù)集作為訓(xùn)練集,用訓(xùn)練集建模,用測(cè)試集加以檢驗(yàn)。從而可以將雙邊關(guān)系衡量模型推廣到中國(guó)與其他各國(guó)的關(guān)系,進(jìn)而衡量中國(guó)與其他國(guó)家外交關(guān)系的賦值。

2、改進(jìn)事件的編碼體系,使用人機(jī)結(jié)合的方式,將人工編碼與機(jī)器編碼有效結(jié)合

(1)改進(jìn)事件的編碼體系

在數(shù)據(jù)庫(kù)中,對(duì)各變量維度的編碼是核心內(nèi)容。在編碼分類(lèi)上,西方的事件數(shù)據(jù)庫(kù)中,主要的研究動(dòng)機(jī)是希望適用于沖突領(lǐng)域,因此其事件的劃分類(lèi)型和具體維度往往圍繞沖突相關(guān)的變量而進(jìn)行展開(kāi)。在分析中國(guó)外交事件時(shí),有些對(duì)于雙邊關(guān)系影響重大的類(lèi)別,在CAMEO或者 ICEWS系統(tǒng)等西方常用編碼系統(tǒng)中則受到忽視。例如GDELT大數(shù)據(jù)庫(kù)使用的編碼體系也是CAMEO系統(tǒng)。在CAMEO系統(tǒng)中,共分為20大類(lèi),包括的事件有300個(gè)以上。在GDELT數(shù)據(jù)庫(kù)中,這300多類(lèi)事件劃分為四個(gè)類(lèi)別:口頭合作類(lèi)(verbal cooperation)、事實(shí)合作類(lèi)(material cooperation)、口頭沖突類(lèi)(verbal conflict)和事實(shí)沖突類(lèi)(material conflict),具體的維度有事件的發(fā)生時(shí)間、事件主動(dòng)方的國(guó)家名、事件接受方的國(guó)名、事件的性質(zhì)、事件的影響、該事件在各網(wǎng)址新聞等數(shù)據(jù)來(lái)源中被提及的次數(shù),事件被報(bào)道時(shí)的語(yǔ)氣,事件發(fā)生地的地理經(jīng)緯度、數(shù)據(jù)錄入時(shí)間、事件的信息來(lái)源等。因此,為了更好地體現(xiàn)中外關(guān)系,在新的數(shù)據(jù)庫(kù)中,將提供有利于分析和衡量中外關(guān)系程度的變量作為編碼系統(tǒng)。

(2)采用事件的自動(dòng)編碼軟件,使用人機(jī)結(jié)合的方式,將人工編碼與機(jī)器編碼相結(jié)合

本數(shù)據(jù)庫(kù)的核心內(nèi)容是對(duì)外交事件的編碼。數(shù)據(jù)庫(kù)內(nèi)容中,最重要的就是對(duì)變量維度的編碼,因?yàn)檫@直接決定了研究的內(nèi)容和方向。在西方創(chuàng)建的事件數(shù)據(jù)庫(kù)中,早期大量采取人工編碼方式。查爾斯·麥克萊蘭 (Charles McClelland)對(duì)外交史采取了人工手動(dòng)編碼的方式。隨著計(jì)算機(jī)技術(shù)的進(jìn)步,一些研究項(xiàng)目開(kāi)始采取計(jì)算機(jī)自動(dòng)編碼的方式。在上個(gè)世紀(jì)80、90年代,美國(guó)堪薩斯事件數(shù)據(jù)系統(tǒng)(Kansas Event Data System,KEDS)利用WEIS的事件編碼系統(tǒng)通過(guò)計(jì)算機(jī)自動(dòng)編碼新聞事件。此外還有一些常用的編碼系統(tǒng):Conflict and Mediation Event Observations(CAMEO),the Integrated Data for Event Analysis (IDEA) (這一編碼系統(tǒng)被以下項(xiàng)目使用the Protocol for Nonviolent DirectAction (PANDA)),斯洛德特還開(kāi)發(fā)了使用這個(gè)編碼系統(tǒng)的軟件(Textual Analysis by Augmented Replacement Instructions ,TABARI)。隨著大數(shù)據(jù)挖掘的深入發(fā)展,西方一些科研項(xiàng)目采取了大數(shù)據(jù)挖掘和自動(dòng)編碼相結(jié)合的結(jié)束。21世紀(jì)的項(xiàng)目the Integrated Conflict Early Warning System(ICEWS)針對(duì)亞太地區(qū)收集數(shù)據(jù),這一項(xiàng)目采用的自動(dòng)編碼程序?yàn)锽BNACCENT。目前美國(guó)最新開(kāi)發(fā)的新編碼系統(tǒng)是Political Language Ontology for Verifiable Event Records(PLOVER),編碼軟件是Python Engine for Text Resolution And Related Coding Hierarchy,PETRARCH-2。

本數(shù)據(jù)在下一步將建立人機(jī)結(jié)合的編碼方式,以完善入庫(kù)數(shù)據(jù)的真?zhèn)闻袆e機(jī)制。在大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)是直接根據(jù)爬蟲(chóng)等數(shù)據(jù)挖掘技術(shù),將相關(guān)新聞報(bào)道直接算入數(shù)據(jù),但是這會(huì)導(dǎo)致數(shù)據(jù)庫(kù)噪聲太大,需要多重清洗。如果清洗不干凈的話(huà),可能會(huì)出現(xiàn)以下問(wèn)題:對(duì)于某一事件,可能有多個(gè)新聞來(lái)源報(bào)道,則在挖掘時(shí)可能重復(fù)記入,導(dǎo)致數(shù)據(jù)庫(kù)不精確。此外,機(jī)器編碼還有可能在對(duì)事件編碼時(shí)錯(cuò)誤抽取關(guān)鍵變量。

為了避免以上數(shù)據(jù)挖掘和機(jī)器編碼的常見(jiàn)失誤,本數(shù)據(jù)庫(kù)將建立了人工編碼和機(jī)器編碼結(jié)合的入庫(kù)數(shù)據(jù)的真?zhèn)闻袆e機(jī)制,主要依靠專(zhuān)業(yè)人士人為甄別。對(duì)于相關(guān)新聞和數(shù)據(jù)的真?zhèn)危梢杂蓪?zhuān)業(yè)人士進(jìn)行初步篩選,然后將所得數(shù)據(jù)給相關(guān)研究領(lǐng)域的專(zhuān)家進(jìn)行判別,看數(shù)據(jù)結(jié)果與專(zhuān)家感覺(jué)是否一致,若差異不大,可以認(rèn)為數(shù)據(jù)沒(méi)有大的疏漏。最后根據(jù)數(shù)據(jù)庫(kù)的研究問(wèn)題,尋找數(shù)據(jù)庫(kù)來(lái)源以外的其他權(quán)威資料來(lái)源,根據(jù)多個(gè)資料對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn),從而增強(qiáng)數(shù)據(jù)的真實(shí)性。因此,本數(shù)據(jù)庫(kù)依據(jù)專(zhuān)家檢驗(yàn)和史料核實(shí)建立判別機(jī)制,可以保證數(shù)據(jù)庫(kù)內(nèi)容的準(zhǔn)確性。

(課題組供稿 )

(責(zé)編:孫爽、艾雯)
尤溪县| 田东县| 雅安市| 扎赉特旗| 岑溪市| 扎兰屯市| 昌宁县| 浦东新区| 循化| 新余市| 临清市| 雅江县| 都安| 武定县| 甘泉县| 镇沅| 嘉义市| 泰兴市| 怀远县| 灌阳县| 克什克腾旗| 瑞安市| 进贤县| 会同县| 景泰县| 鄂伦春自治旗| 洛扎县| 司法| 垫江县| 丰都县| 堆龙德庆县| 六枝特区| 柏乡县| 怀集县| 乌恰县| 平利县| 宁国市| 咸丰县| 正定县| 甘南县|