5月26日,中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)會(huì)場(chǎng)外的大數(shù)據(jù)標(biāo)識(shí)。新華社發(fā)
近年來(lái),全球范圍內(nèi)掀起一場(chǎng)新的數(shù)字革命,人類步入大數(shù)據(jù)時(shí)代。數(shù)據(jù)正在成為人類社會(huì)最重要的資源和資產(chǎn)。大數(shù)據(jù)給人類社會(huì)的各個(gè)方面都帶來(lái)了巨大變化,特別是在科研領(lǐng)域,大數(shù)據(jù)及其分析工具正在成為人類認(rèn)識(shí)世界和改造世界的重要手段。然而,與自然科學(xué)領(lǐng)域相比,人文社科領(lǐng)域?qū)?shù)據(jù)資源的使用相對(duì)滯后。此前的社會(huì)科學(xué)研究雖然使用數(shù)據(jù),但多數(shù)都是小規(guī)模抽樣數(shù)據(jù),而非海量或全量數(shù)據(jù)。隨著社會(huì)數(shù)字化轉(zhuǎn)型不斷深入,數(shù)據(jù)資源在人文社科研究中的地位不斷提升,人文社科研究范式和研究問(wèn)題發(fā)生變革。如何加強(qiáng)人文社科數(shù)據(jù)資源建設(shè)與規(guī)范管理,以適應(yīng)科研數(shù)字化轉(zhuǎn)型這一趨勢(shì),成為當(dāng)下值得研究并解決的一大問(wèn)題。
人文社科數(shù)據(jù)資源建設(shè)勃然興起
與文獻(xiàn)信息一樣,數(shù)據(jù)也是學(xué)術(shù)研究的基礎(chǔ)性資源。2009年以來(lái),我國(guó)人文社科領(lǐng)域數(shù)據(jù)資源建設(shè)開(kāi)始加速。人文社科類基金資助的數(shù)據(jù)資源建設(shè)類科研項(xiàng)目也開(kāi)始直線增長(zhǎng)。統(tǒng)計(jì)顯示,黨的十八大以來(lái),與數(shù)據(jù)資源建設(shè)相關(guān)的國(guó)家社科基金重點(diǎn)和重大項(xiàng)目數(shù)量有了顯著增長(zhǎng)。2017年,國(guó)家社科基金重大招標(biāo)項(xiàng)目中,與數(shù)據(jù)資源建設(shè)有關(guān)的,數(shù)量更是可觀。這些項(xiàng)目主要集中在語(yǔ)言學(xué)、歷史學(xué)、文學(xué)、圖書(shū)情報(bào)學(xué)等學(xué)科,從地域看,主要集中于北京、上海、廣東、江蘇、浙江等地區(qū)。近兩年,在專題數(shù)據(jù)資源快速增長(zhǎng)的同時(shí),國(guó)內(nèi)實(shí)力領(lǐng)先的研究型高校也紛紛開(kāi)始建設(shè)人文社科數(shù)據(jù)中心或數(shù)據(jù)平臺(tái),以支撐人文社科研究范式的創(chuàng)新與轉(zhuǎn)型,如清華大學(xué)中國(guó)經(jīng)濟(jì)社會(huì)數(shù)據(jù)中心、北京大學(xué)開(kāi)放研究數(shù)據(jù)平臺(tái)、復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)平臺(tái)等。
蓬勃發(fā)展的人文社科數(shù)據(jù)資源建設(shè),昭示著我國(guó)人文社科領(lǐng)域的基礎(chǔ)研究環(huán)境和組織架構(gòu)都在向數(shù)字化方向轉(zhuǎn)型,數(shù)據(jù)驅(qū)動(dòng)的研究范式正在人文社科領(lǐng)域悄然興起。伴隨此范式的興起,人文社科領(lǐng)域的開(kāi)放思維、計(jì)算思維、量化思維、協(xié)同思維也更加受到學(xué)者重視,由此推動(dòng)了文學(xué)領(lǐng)域的大尺度宏觀研究、歷史領(lǐng)域的長(zhǎng)程量化研究、藝術(shù)領(lǐng)域的視覺(jué)計(jì)算研究、文化領(lǐng)域的時(shí)空可視化研究等的出現(xiàn)。這些新興的研究課題都離不開(kāi)強(qiáng)大的專題數(shù)據(jù)庫(kù)和計(jì)算平臺(tái)作保障。人文社科領(lǐng)域的可計(jì)算數(shù)據(jù)資源正伴隨數(shù)字人文和計(jì)算社會(huì)科學(xué)的發(fā)展而發(fā)揮著越來(lái)越大的學(xué)術(shù)價(jià)值。
諸多不足制約人文社科數(shù)據(jù)資源建設(shè)
數(shù)據(jù)庫(kù)建設(shè)過(guò)程不規(guī)范,系統(tǒng)平臺(tái)可用性不強(qiáng)。目前,很多人文社科數(shù)據(jù)資源建設(shè)都由重大科研項(xiàng)目驅(qū)動(dòng),有一定的項(xiàng)目實(shí)施周期。在現(xiàn)有學(xué)術(shù)評(píng)價(jià)體系下,傳統(tǒng)的印刷出版物,如專著和論文,是科研成果的首選形式,所以在項(xiàng)目實(shí)施過(guò)程中,學(xué)術(shù)研究是核心,這就導(dǎo)致項(xiàng)目團(tuán)隊(duì)以項(xiàng)目結(jié)題為目標(biāo),不太重視數(shù)據(jù)庫(kù)建設(shè)的規(guī)范性和長(zhǎng)期性。很多數(shù)據(jù)庫(kù)系統(tǒng)選型落后,數(shù)據(jù)服務(wù)平臺(tái)功能單一,檢索效率低下,不支持機(jī)器讀取和原始下載,系統(tǒng)平臺(tái)整體上可用性較差,難以滿足項(xiàng)目之外用戶的實(shí)用性需求。
數(shù)據(jù)資源質(zhì)量控制不嚴(yán)格,內(nèi)容可信性較弱。與自然科學(xué)類數(shù)據(jù)相比,人文社科類數(shù)據(jù)的生命周期較長(zhǎng),史料價(jià)值突出,后世使用概率高,所以質(zhì)量要求更高。然而,由于人文社科領(lǐng)域數(shù)據(jù)來(lái)源廣泛,既包括互聯(lián)網(wǎng)上的用戶行為數(shù)據(jù),又包括結(jié)構(gòu)化行業(yè)統(tǒng)計(jì)數(shù)據(jù),還有從傳統(tǒng)書(shū)報(bào)刊中抽取的非結(jié)構(gòu)化文本片段,數(shù)據(jù)模型的差異極大。在數(shù)據(jù)庫(kù)設(shè)計(jì)過(guò)程中,由于懂專業(yè)領(lǐng)域又懂?dāng)?shù)據(jù)庫(kù)設(shè)計(jì)的復(fù)合型人才稀少,很多專題數(shù)據(jù)庫(kù)的結(jié)構(gòu)設(shè)計(jì)相當(dāng)隨意,結(jié)構(gòu)十分不規(guī)范,常常不合乎數(shù)據(jù)庫(kù)設(shè)計(jì)范式要求。在數(shù)據(jù)庫(kù)內(nèi)容采集過(guò)程中,往往也缺少質(zhì)量控制標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致數(shù)據(jù)內(nèi)容的可信性與可靠性得不到保障。
數(shù)據(jù)發(fā)布標(biāo)準(zhǔn)不統(tǒng)一,流通共享成本高。數(shù)據(jù)的自由流通和共建共享是發(fā)揮數(shù)據(jù)資源價(jià)值的關(guān)鍵。目前,人文社科數(shù)據(jù)資源主要由各領(lǐng)域的學(xué)術(shù)機(jī)構(gòu)自主分散建設(shè),缺乏像圖書(shū)館聯(lián)盟一樣的第三方機(jī)構(gòu)進(jìn)行技術(shù)協(xié)調(diào)。建成以后的數(shù)據(jù)庫(kù)在互聯(lián)網(wǎng)上也是自由發(fā)布,標(biāo)準(zhǔn)不一,普遍缺乏便于機(jī)器讀取和交互操作的數(shù)據(jù)接口。用戶無(wú)法查看其詳細(xì)的數(shù)據(jù)結(jié)構(gòu),更無(wú)法通過(guò)關(guān)聯(lián)數(shù)據(jù)的方式相互共享鏈接,由此導(dǎo)致數(shù)據(jù)難以跨域流通和自動(dòng)匯聚,語(yǔ)義數(shù)據(jù)網(wǎng)絡(luò)也無(wú)法通過(guò)自動(dòng)勾連的方式構(gòu)建和使用。
關(guān)鍵數(shù)據(jù)資源缺乏界定,數(shù)據(jù)主權(quán)難有保障。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和數(shù)字中國(guó)建設(shè)的推進(jìn),人文社科領(lǐng)域的數(shù)據(jù)資源將逐漸從調(diào)查獲取和人為發(fā)布向感知獲取與自動(dòng)發(fā)布轉(zhuǎn)換,例如社交媒體數(shù)據(jù)、金融系統(tǒng)數(shù)據(jù)、用戶隱私數(shù)據(jù)、商品流通數(shù)據(jù)等都可以借助網(wǎng)絡(luò)媒體系統(tǒng)、電子政務(wù)系統(tǒng)、電子商務(wù)系統(tǒng),以及日益強(qiáng)大的智慧城市基礎(chǔ)運(yùn)營(yíng)設(shè)施自動(dòng)獲取。這些數(shù)據(jù)資源中有些屬于“關(guān)鍵數(shù)據(jù)資源”,不僅涉及個(gè)人隱私,對(duì)于國(guó)家數(shù)據(jù)主權(quán)和國(guó)家總體安全也有潛在影響,不能隨意流通和跨境傳輸。目前,人文社科領(lǐng)域還沒(méi)有針對(duì)“關(guān)鍵數(shù)據(jù)資源”的清晰定義,但其潛在安全問(wèn)題正隨著數(shù)據(jù)資源的快速增長(zhǎng)而浮現(xiàn),有必要未雨綢繆、厘清概念。
提升人文社科數(shù)據(jù)資源管理規(guī)范性的對(duì)策建議
發(fā)布數(shù)據(jù)資源建設(shè)規(guī)范,指導(dǎo)數(shù)據(jù)資源建設(shè)過(guò)程。數(shù)據(jù)資源建設(shè)類似于軟件開(kāi)發(fā),過(guò)程控制是關(guān)鍵。有必要研究并發(fā)布人文社科數(shù)據(jù)資源建設(shè)規(guī)范,包括數(shù)據(jù)資源分類與格式規(guī)范、數(shù)據(jù)資源建設(shè)機(jī)構(gòu)資質(zhì)要求、數(shù)據(jù)庫(kù)系統(tǒng)選型要求、內(nèi)容維護(hù)規(guī)范和網(wǎng)絡(luò)發(fā)布標(biāo)準(zhǔn)等內(nèi)容,對(duì)人文社科各領(lǐng)域?qū)n}數(shù)據(jù)庫(kù)和數(shù)據(jù)平臺(tái)建設(shè)進(jìn)行全流程指導(dǎo)。
建立數(shù)據(jù)資源評(píng)估標(biāo)準(zhǔn),保障數(shù)據(jù)內(nèi)容質(zhì)量。對(duì)不同領(lǐng)域和不同類型的數(shù)據(jù)資源制定詳細(xì)的評(píng)估標(biāo)準(zhǔn),核心是質(zhì)量評(píng)估和價(jià)值評(píng)估。對(duì)不同形式的數(shù)據(jù)資源進(jìn)行專家與機(jī)器相結(jié)合的、傳統(tǒng)科學(xué)計(jì)量與新興網(wǎng)絡(luò)計(jì)量相結(jié)合的評(píng)估。將評(píng)估結(jié)果作為各類數(shù)據(jù)資源建設(shè)項(xiàng)目資助、實(shí)施和驗(yàn)收的必要條件,保障人文社科數(shù)據(jù)資源高質(zhì)量建設(shè)與運(yùn)營(yíng)。
探索數(shù)據(jù)資源長(zhǎng)效維護(hù)機(jī)制,實(shí)現(xiàn)數(shù)據(jù)服務(wù)可持續(xù)發(fā)展。鑒于數(shù)據(jù)資源運(yùn)營(yíng)的高成本特征,有必要探索建立學(xué)術(shù)機(jī)構(gòu)與出版機(jī)構(gòu)、圖書(shū)館機(jī)構(gòu)、數(shù)據(jù)服務(wù)公司聯(lián)合運(yùn)營(yíng)與維護(hù)的長(zhǎng)效合作機(jī)制,通過(guò)政府資助、商業(yè)銷(xiāo)售、托管服務(wù)等多種手段實(shí)現(xiàn)人文社科數(shù)據(jù)資源的可持續(xù)發(fā)展與運(yùn)營(yíng),避免數(shù)據(jù)資源因?yàn)橛薪ㄔO(shè)、無(wú)服務(wù)而“曇花一現(xiàn)”。
建立數(shù)據(jù)資源管理聯(lián)盟,促進(jìn)數(shù)據(jù)資源開(kāi)放共享。參照中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(CALIS),建立數(shù)據(jù)資源管理聯(lián)盟。以“智慧數(shù)據(jù)”的理念,開(kāi)展數(shù)據(jù)模型技術(shù)研究、數(shù)據(jù)模型技術(shù)應(yīng)用宣傳和培訓(xùn)。鼓勵(lì)數(shù)據(jù)資源建設(shè)主體利用開(kāi)放關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜、簡(jiǎn)單知識(shí)組織系統(tǒng)等新興語(yǔ)義技術(shù)和標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)資源的語(yǔ)義化和關(guān)聯(lián)化發(fā)布,整體上提升人文社科數(shù)據(jù)資源的智慧層次和開(kāi)放共享水平。
設(shè)立數(shù)據(jù)資源建設(shè)專項(xiàng)基金,加大數(shù)據(jù)資源資助力度。設(shè)立國(guó)家級(jí)、省部級(jí)的人文社科數(shù)據(jù)資源建設(shè)專項(xiàng)基金,通過(guò)穩(wěn)定的項(xiàng)目資金支持,提高人文社科數(shù)據(jù)資源供給水平。在政府相關(guān)部門(mén)設(shè)立專門(mén)的全國(guó)高校數(shù)據(jù)資源管理辦公室,統(tǒng)籌管理人文社科數(shù)據(jù)資源建設(shè)。
建立數(shù)據(jù)匯交制度,構(gòu)建全國(guó)統(tǒng)一的人文社科數(shù)據(jù)資源門(mén)戶。將公開(kāi)發(fā)布的數(shù)據(jù)庫(kù)視為一種正式出版物,建立數(shù)據(jù)匯交制度和全國(guó)統(tǒng)一的人文社科數(shù)據(jù)資源門(mén)戶,定期采集各數(shù)據(jù)庫(kù)目錄數(shù)據(jù)或原始數(shù)據(jù),并進(jìn)行評(píng)估和長(zhǎng)期保存。開(kāi)展數(shù)據(jù)資源和數(shù)據(jù)分析工具的應(yīng)用培訓(xùn)和宣傳,推動(dòng)人文社科領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)的研究范式發(fā)展。
建立“關(guān)鍵數(shù)據(jù)資源”管控機(jī)制,提高數(shù)據(jù)主權(quán)意識(shí)。參照出版領(lǐng)域的重大選題審批制度,對(duì)有重大社會(huì)影響的“關(guān)鍵數(shù)據(jù)資源”,如哲學(xué)、政治、經(jīng)濟(jì)、歷史、法律等領(lǐng)域的特定主題數(shù)據(jù)建立分類、公示、審批與審讀制度。對(duì)“關(guān)鍵數(shù)據(jù)資源”的流通實(shí)施白名單管理,嚴(yán)格控制“關(guān)鍵數(shù)據(jù)資源”的跨境流通,保障我國(guó)的數(shù)據(jù)主權(quán)安全。
(作者:王曉光,系武漢大學(xué)信息管理學(xué)院教授、教育部人文社科重點(diǎn)研究基地武漢大學(xué)信息資源研究中心副主任)