典藏目錄的語意與連結
Semantics and linkage of Archive(d) Catalogs 講者: 莊庭瑞/ 中央研究院資訊科學研究所 黃韋菁/ 中央研究院資訊科學研究所 李承錱/ 中央研究院資訊科學研究所
為了讓不同機構的典藏檔案能夠進一步被研究者組織、整合與分析應用,中研院資訊科學研究所在過去一年半之間擷取了84萬筆來自典藏 台灣-聯合目錄中的CC授權典藏檔案,與外部資源做進一步的連結,進行時間、空間與人物與事件等資訊的整合,以語意檢索的形式重新呈現。
講者發表了如何重新連結目錄資料的流程、工具、與語意架構,包括了資料表單的參照連結。其中包括了:歷史性資料的保存與轉換原則、半結構性型態(如 xml)到表單型態再到資源描述型態(如 RDF)的資料轉換方法、開放源碼工具的選用、資料連結(linked Data)以及資料藏庫(Data Repository)的整合、以及目錄資料與外部資源的連接。語意架構方面將分述兩種角度與作法:資料的出處溯源(Provenance)以及資料的語意再現(Representation),如事件型態中人、時、地、物等資訊的解析與連結。
軟體工具可能很多,資料產出的方式更具有許多的彈性。經過重新整理後,便能建立「活的連結」,讓外部連結可以在此平台上進行串整。
將目錄資料轉化成為資料連結的形式,資料連結的呈現上分為兩個版本,典藏台灣的藏品在標記時,已經使用了都柏林核心集(Dublin Core‚ DC)後設資料的十五個欄位,典藏目錄的語意與連結便以此為基礎,將文字轉成資料連結;同時,也再進一步尋找文字的外部資料連結,如地名、生物等外部資源的對應,產生重新定義的版本,在系統中以電腦自動化產生。
在儲存與呈現上,靈活地運用軟體工具。使用SPARQL Endpoint供電腦進行自動存取,提供執行的效能,也具有高可靠度的優點。而在機器自動辨識之外,為了提供真人識讀的便利性,也應用cken等開源軟體提升介面的可自定性,讓使用者可以將資料連結匯入與匯出。
在此平台上,除了基本資料的轉換與連結,也提供空間、時間訊息的搜尋。並提供SPARQL Endpoint的呈現。
事件的因果關係如何在語意化的系統中呈現,以Event Factor‚ Event Product 的概念回答後設資料中所描述的意義,透過語意的界定,進行資料的溯源與爬梳,找到資料連結的潛力與可能性。
資料之間如何連結、組織,關係到其間如何進行串聯與整合,這是linked Data的實踐。可以是純文本、也可以是資料庫的組織方式,允許使用者訂定規範式的語彙來進行知識的組織、爬梳與整理。 |