一、研究進展情況
主要內(nèi)容:
①研究計劃總體執(zhí)行情況及各子課題進展情況
本課題的研究前期主要是收集和整理兩岸關(guān)系的族譜資料和研發(fā)設(shè)計數(shù)據(jù)庫。在資料數(shù)據(jù)化、電子化的同時,開展相關(guān)的課題研究和學(xué)術(shù)交流活動。
資料收集電子化是一項龐大的工程,收集整理逾萬種的家譜資料不僅僅是完成資料掃描電子化那么簡單。慶幸地是我們在建設(shè)數(shù)據(jù)庫的過程中研發(fā)了人工智能識別系統(tǒng),使我們將電子化的族譜資料進行人工智能識別時提高了效率,推進了數(shù)據(jù)庫的建設(shè)工作。
我們將以往收集到的族譜資料整理出版,完成了《客家珍稀譜牒文獻叢刊》(100冊),由廣東人民出版社正式出版。課題組成員已撰寫相關(guān)論文10多篇,并完成《閩臺族譜文獻研究》(20萬字)撰寫工作,正與九州出版社簽訂出版合同。
相關(guān)課題組正在編纂族譜目錄,并撰寫有關(guān)族譜與兩岸關(guān)系、閩臺社會等方面的研究論著。
②調(diào)查研究及學(xué)術(shù)交流情況
族譜資料的收集情況:課題組基本完成了各地族譜資料的收集工作,并派員赴臺灣收集族譜資料。我們先后有6人赴臺收集資料20天,有1人赴臺1個月訪學(xué)并收集課題相關(guān)的族譜資料。
2018年2月6日,利用課題開題之際,我們與福建省姓氏源流研究會共同舉辦了兩岸關(guān)系族譜資料數(shù)據(jù)庫建設(shè)會議,邀請了臺灣10余位姓氏研究會代表出席會議。
2018年12月7日——9日,我們在福州舉辦了第六屆兩岸文化發(fā)展論壇,與會代表100余人,其中臺灣代表出席會議亦有30人之多,會議以兩岸族譜研究、宗親關(guān)系等為題展開深入地探討。
2019年4月20日,我們同臺北大學(xué)人文學(xué)院陳俊強簽訂了福建師范大學(xué)與臺北大學(xué)人文學(xué)院學(xué)術(shù)交流的協(xié)議,雙方擬在在臺灣文獻資料研究方面,在臺灣民俗文化研究方面,加強合作。
2019年6月16日——18日,我們在福州舉辦了第十一屆海峽論壇之第七屆兩岸文教發(fā)展論壇,臺灣代表有30多位出席會議并發(fā)言。
圍繞兩岸關(guān)系我們亦邀請廈門大學(xué)臺灣研究院的李鵬、劉國深、唐永紅、張寶蓉;福建社會科學(xué)院的劉小新、劉傳標(biāo);全國臺灣研究會的汪毅夫;上海交通大學(xué)臺灣研究中心的林岡;臺灣世新大學(xué)的曾永義、臺灣淡江大學(xué)的呂正惠、臺灣東海大學(xué)的趙剛、臺灣中華兩岸和平發(fā)展聯(lián)合會的藍博洲、臺灣藝術(shù)大學(xué)的王慶臺、臺灣佛光大學(xué)的謝大寧等來福建師范大學(xué)閩臺區(qū)域研究中心(課題組依托單位)做學(xué)術(shù)報告。與研究臺灣問題的學(xué)者交流,與來自臺灣的學(xué)者專家交流,大大豐富了我們對課題研究的思路和眼界,有力地推動了兩岸關(guān)系族譜資料數(shù)據(jù)庫的建設(shè)工作。
③成果宣傳推介情況
在課題研究的過程中,由于資料數(shù)據(jù)化的工作極其重要,人工智能識別系統(tǒng)的應(yīng)用特別引人矚目。我們開發(fā)使用的人工智能識別系統(tǒng)亦引起相關(guān)部門的注意,浙江師范大學(xué)圖書館、暨南大學(xué)圖書館、臺灣淡江大學(xué)EMBA福建考察團、福建省圖書館、廣州市圖書館都前來商談人工智能識別系統(tǒng)的應(yīng)用事宜,并考察兩岸關(guān)系族譜資料數(shù)據(jù)庫的功能。
二、研究成果情況
主要內(nèi)容:①代表性成果簡介
本課題主要的代表性成果——《兩岸關(guān)系族譜資料數(shù)據(jù)庫》的建設(shè),具體情況如下:
截至2019年7月,征集加工入庫的族譜主要是福建、臺灣兩省1949年之前老譜,共計1517冊、144323頁,詳見:族譜深加工族譜目錄。2020年6月前計劃征集加工入庫的涉臺族譜共1.5萬冊,125萬頁(其中福建地區(qū)5542冊、70萬頁,臺灣家譜6781冊、25萬頁,其他2677冊、30萬頁)。
在《兩岸關(guān)系族譜資料數(shù)據(jù)庫》數(shù)據(jù)庫建設(shè)中,我們創(chuàng)建了OCR人工智能平臺,對于已經(jīng)預(yù)處理的圖片進行文字比對識別,識別內(nèi)容主要包括:文字、符號、數(shù)字以及表格等內(nèi)容,F(xiàn)目前,OCR人工智能識別系統(tǒng)的識別率高達99%以上,極大提高了家譜資料識別準(zhǔn)確率,從而降低人工校對的要求。兩岸關(guān)系家譜圖片成果達到全文識別,將使圖片數(shù)字化發(fā)展提升到一個新的階段,為我們的最終成果兩岸關(guān)系族譜資料數(shù)據(jù)庫的文獻查詢提供了技術(shù)支持。
其次,數(shù)據(jù)庫的建設(shè)過程中,生成了世譜樹,世譜樹是族譜中最重要的組成部分,基于OCR人工智能識別與校對,對出現(xiàn)在家譜中的譜系圖、譜系圖表、譜系描述文字等部分中的每一個人物進行置標(biāo)以及二維關(guān)系的維護。對譜系人物的信息進行標(biāo)引著錄,使人物及人物關(guān)系結(jié)構(gòu)清晰化,生成完整家譜世系樹。通過對人物的坐標(biāo)定位,可實現(xiàn)搜索、快速查找。世系樹的各節(jié)點都可以展示人員的詳細(xì)信息。
人物信息置標(biāo)內(nèi)容包括:姓、名、諱、字、號、別稱、謚號、性別、生、卒、世代、支派等。按照支派、世代的先后順序,同一支派的同一世代按照從右向左、從上至下的順序依次置標(biāo)。
提供世系樹各節(jié)點數(shù)據(jù)的導(dǎo)入和導(dǎo)出功能!皩(dǎo)出”和“導(dǎo)入”功能用于支持本系統(tǒng)與外部系統(tǒng)的數(shù)據(jù)交換,導(dǎo)入數(shù)據(jù)用于選擇一個數(shù)據(jù)交換文件 (xml、excel)將其中的人物數(shù)據(jù)導(dǎo)入并將之作為選中人物的后代。導(dǎo)出可以對世系樹上的各個節(jié)點信息以及隸屬于該節(jié)點的族譜信息的導(dǎo)出,導(dǎo)出文檔模式可以根據(jù)客戶需要進行選擇。
第三方面,我們已完成了數(shù)據(jù)庫的“在線修譜”工作。族譜的編修是繼承傳統(tǒng)文化、家族命脈的需要,通過在線修譜可進行家族族譜的共同編修、修整和快速續(xù)譜,傳播譜牒文化知識。平臺在對老譜進行數(shù)字化深加工(族譜人工智能識別與校對)后,在線修譜軟件會分析原譜體例,產(chǎn)生規(guī)范家譜章節(jié)文本數(shù)據(jù)與世系樹,提供完整的族譜編修界面。
兩岸關(guān)系族譜資料數(shù)據(jù)庫的后臺管理也相繼完備,主要體現(xiàn)在⑴系統(tǒng)管理;⑵任務(wù)分配;⑶統(tǒng)計功能;⑷文件管理;⑸數(shù)據(jù)庫備份;⑹系統(tǒng)日志功能等方面。
《兩岸關(guān)系族譜資料數(shù)據(jù)庫》主要功能有族譜全文檢索、輸名尋祖、在線修譜等功能。應(yīng)用系統(tǒng)總體建構(gòu)采用分層設(shè)計思想,具體分為:表現(xiàn)層、接入層、應(yīng)用層、數(shù)據(jù)層。今后的工作即充實數(shù)據(jù)庫的內(nèi)容,不斷地完善數(shù)據(jù)庫功能。
三、下一步研究計劃
1. 族譜征集工作,尤其是臺灣地區(qū)的族譜還需實地調(diào)研征集。
2. 族譜資料數(shù)據(jù)化加工。人工智能識別族譜資料尚完成總體工作的12%還需進一步的推進。
3. 族譜總目編目工作需要盡快完成。
4. 繼續(xù)編寫相關(guān)的論文和著作。
5. 舉辦關(guān)于兩岸族譜研究的學(xué)術(shù)會議。
課題組供稿