標記、統計與分析工作坊 本次工作坊邀請荷蘭萊頓大學Hilde de Weerdt(魏希德)教授與政治大學劉昭麟教授主講,主題為「標記、統計與分析」。在工作坊中,兩位老師將介紹數位時代處理、分析文獻資料的新工具。例如:如何讓電腦自動標記文言文資料中的人名、地名、官職名與年號?如何讓電腦分析關鍵詞在文獻中的詞頻,並找出其出現語境?工作坊並包含實作時間,希望與會的老師、同學透過實際操作,更加熟悉數位人文為人文研究帶來的種種可能性。 成大場
時間:3月6日(五) 09:10-17:00 地點:成功大學光復校區文學院會議室 興大場 時間:3月20日(五) 09:10-17:00 地點:中興大學資訊科學大樓2樓第三電腦教室 講者: Hilde de Weerdt (魏希德)教授(荷蘭萊頓大學中國史教授) 劉昭麟教授(政大資訊科學系特聘教授) 工作坊內容: •參加者請自備筆記型電腦。活動將於09:10開始報到。 上午場(魏希德教授) MARKUS:文本標記與文史研究 09:30 - 12:30 (含實做) 數位工具對於人文學的研究,不只能進行巨量的統計、宏觀趨勢的分析,也能細緻的記錄過去文件的樣貌、研究者的成果和心得,讓數位人文學者可以任意地在宏觀與微觀之間自由移動,進行各式各樣的探索。要做到這點,其中一種方法就是文本標記;亦即,把文件中的重要資訊利用標記的方式以利於電腦的辨識,再在這樣的基礎上進行種種的利用。然而,大量的文本要如何進行標記,卻是一個大問題。如果利用人工進行不但曠日廢時,而且常常很難取得一致的標記成果,因此如何讓電腦進行自動標記也就成了資訊學者的一大課題。 本次我們的講者魏希德要介紹的,就是一種自動標記的系統。她的團隊發展出的MARKUS(中文直譯為:標記我們吧!)一方面可以利用CBDB(由哈佛大學、北京大學、中研院史語所共同開發「中國歷代人物傳記資料庫」)對輸入的文本或檔案進行人名、地名、官職名、年號的標記;另一方面,也可以讓使用者輸入自己想要標記詞語的清單,然後進行標記;例如,你可以準備一張中藥名稱的清單,然後讓MARKUS把資料中的中藥名稱全部標記起來。MARKUS對於想要進行標記文本的文史研究者來講非常便利。歡迎大家參加本次的工作坊,並準備自己的文本進行實做;主辦單位也會準備一些測試文本,讓大家練習。 相關連結:MARKUS: Classical Chinese Text Analysis and Reading Platform 下午場(劉昭麟教授) 計算、圖表與文本分析 14:00 - 17:00 (含實做) 數位科技的力量,一般被了解為具有強大的計算能力,因而時常被文史學者所忽略。然而,計算不但是文史工作者須常常面對的問題、從事的工作,也可能和我們潛藏的敘述判斷有所關聯。 在這次的工作坊中,劉昭麟老師將為我們展示如何聯結電腦的計算能力和文本分析的作業,並藉著圖表來視覺化種種分析的結果。劉老師在演示完後,也將分享他的程式碼,教我們如何自己動手做出類似的應用,以便大家可以把他的經驗和程式運用在自己的研究和教學。 1.電腦中文檔案的儲存(UTF8、BIG5、GB2312) 2.中文的斷詞、斷句 3.中文詞彙的時序分析 4.相關軟體安裝(Java) 5.Google Chart 應用 6.Excel 簡單案例 7.中文詞組的時序分析 8.分析角度面面觀 9.具體實作 相關連結:劉昭麟老師的臺灣數位人文小小讚網頁
活動網頁連結 主辦單位 科技部數位人文籌畫小組 中興大學文學院 成功大學文學院 |