雖然大部分人未必能回答Big Data是怎麼一回事,但在Big Data的口號下,相關的「語意網」儼然成為不得為的趨勢。中研院數位文化中心也開始嘗試將數位典藏聯合目錄中的部分後設資料轉置為「鏈結資料(linked Data)」。但在處理資料的工作過程中,不免要問: 工程師說:「反正這不是給人用,是給機器看的。」如果這些資料人不能使用,那生產這些東西是要幹嘛? 圖一:Rijksmuseum檢索頁 想不到的話,不妨試一下: -
china-小寫字,中文世界裡普遍認為是瓷器的英文。 系統回答,含有此關鍵詞的藏品共有5‚233筆。如果願意用滑鼠拉,的確會看到有青花瓷,但要知道它是不是元代,就得一筆一筆進去看。然而,一般經驗裡,在Google裡蒐到5‚000筆資料,頂多只想看前幾頁。 -
Yuan Dynasty-元朝 系統回答,我們有4筆。但沒有一筆是青花。 想不到其他詞彙也沒關係。不知道該如何下檢索詞的人,也可以用簡單的常識,用一分鐘找到如下圖的盤子。 在Rijksmuseum的檢索頁左邊有檢索工具,讀者可依下列順序按一按: 圖三:Rijksmuseum檢索輔助工具 -
按「Period」打開子選單 -
按14th century(1271至1368,約當14世紀) -
按「Material」打開子選單 -
按「porcelain(material)」(青花的質材是瓷) 圖四:「14世紀」與「質材瓷」的複合檢索結果 14世紀的瓷器只有16筆,已達努力可為之的數量。但如果不想看到青瓷夾在中間搗蛋,請再按質材子選單裡的「cobalt (mineral)」(鈷藍,青花釉的原料)。就可以得到三筆青花,雖然其他兩筆是洪武和永樂。 圖五:Rijksmuseum收藏的14世紀青花 所以,Rijksmuseum是怎麼做到的呢?一般的想法就是後設資料有著錄。打開藏品的「More details」,檢查一下「青花麒麟盤」的後設資料。看上去和其他描述良好的欄位式資料庫沒有任何不同,唯一的差別是,有些詞彙有底線,看起來是某種可以點選的連結。 圖六:「青花麒麟盤」的部分後設資料,按一下底線字吧。 這些底線字並不只是某種隨意的關鍵詞,讀者可以試著使用「advanced search」做精確檢索,就會發現它們其實是有精確語意的控制詞彙。例如,當使用者以「china」做質材檢索,輸入過程中系統會反饋提示詞。例如,含「china」的詞只有「骨瓷」和「宣紙」。如果使用者堅持一定要用「china」檢索,檢索頁並不會做「骨瓷」加「宣紙」的檢索,而是把「china」轉為不分欄檢索,回到最初令人無法動彈的5‚233筆。 圖七:檢索「chi」的提示詞 顯然,質材「瓷」和「鈷藍」不止是控制詞彙,Rijksmuseum對後設資料填寫的要求是,質材描述只限定於質材詞彙,而且是選定的詞彙,不可使用非法語意,將「中國(China)」填入物件的質材欄位裡。所以,只會有「青花麒麟盤的質材是瓷」、「青花麒麟盤的質材是鈷藍」的語意表達,不會出現「青花麒麟盤的質材是中國」的錯誤知識。 再看「青花麒麟盤」的年代。後設資料中登載的日期資訊是「c. 1350」,一般的字串比對檢索無法蒐到這筆資料。但是檢索工具卻可以提供「14 th century」的選項。要達到這種檢索其實並不難,因為想像中其實可以這樣玩: date field value=1301 date field value=1302 … date field value=1400 現在的計算機速度很快,跑完一百條檢索指令要不了多少時間。但是這是一種類似春天三條蟲偏好的方法,工程師大概比較希望利用數字的特性,進行比大小的公式計算: FILTER (?date >= "1301" && ?date < "1400") (上述計算機語中譯為:篩選日期大於等於1301,小於1400) 所以,這個欄位只能填寫數字,如果填Yuan Dynasty,文字是沒辦法跟數字比大小的。當然,也可以試著讓計算機懂得什麼是Yuan Dynasty,例如,大英博物館是這麼做的: 圖八:大英博物館某青瓷盤後設資料 可以看到大英博物館將年代的描述分為「culture/period」及「Date」兩個欄位,分別填入文字與數字。顯示此青瓷盤製作的時間的西元年代,約當中國的元代及明代。 以「Yuan Dynasty」檢索當然可以找到這筆記錄。但,真實的狀況是:它是以14世紀的年代區間「AD 1301」至「AD 1400」為檢索條件找到的。起始年代「1279」年溢出檢索條件,不妨思考一下,大英博物館為什麼要把這筆記錄丟給使用者?而工程師會下什麼指令,讓系統找到一筆檢索值只有部分重覆的資料? 圖九:以14世紀為範為檢索到青瓷盤 以精確的語意代替模糊的描述,建構起計算機能辨別,甚至進行後設資料未描述內容的計算,這就是語意網想建構的知識網路,不只是「比對」檢索詞,而是用語意來「辨識」內容。 語意化的工作雖然是在生產linked Data,但使用者還是可以用欄位式資料庫的概念來理解它。如果欄位屬性的設定及屬性值符合語意網的規範,系統照樣可以在欄位式資料庫運作。如果一定要產生triples,幾秒鐘就可以倒出正確的資料。 語意網已成為資訊領域的顯學,各單位都宣稱自己在做linked Data。但是做linked Data應該不是抱著某種參加軍備競賽的心情,只需要證明核彈我會做,不必證明自己可以打一發。重點是,如果計算機可以「讀懂」這些人看不懂的資料,使用者就可以用超越字串比對的限制,用更符合人腦思維模式的方法,打撈到不需要再浪費時間用人力過濾資料(從五千筆到三筆),甚至「意在後設資料言外」的資料。 |