原語會族語線上辭典

概述

原住民族語言研究發展基金會(ILRDF,以下簡稱原語會)族語線上辭典是一項全面又完整的數位資源,旨在保存與推廣臺灣原住民族語言。該辭典以原住民族委員會與教育部於2005年共同頒布的原住民族語言書寫系統為基礎,代表著數百名參與者將近七年合作努力的成果。原語會族語線上辭典是語言復振、教育與研究的重要工具,確保臺灣原住民族的文化與語言知識得以為後代永續保存。

原語會族語線上辭典語料庫是FormosanBank專案計畫不可或缺的組成部分,其提供了豐富且結構化的語料集,包括16個官方認定的臺灣南島語:阿美語、泰雅語、賽夏語、邵語、賽德克語、布農語、排灣語、魯凱語、太魯閣語、噶瑪蘭語、鄒語、卡那卡那富語、拉阿魯哇語、卑南語、雅美(達悟)語及撒奇萊雅語。這些辭典在記錄和保存語言多樣性具有重要價值,內容涵蓋文字、錄音和翻譯,為研究、教育及語言復振提供了全面的資源。


背景

該計畫於2007年啟動,系統性地編纂16族原住民語的辭典。每部辭典平均耗時兩年完成,凝聚了語言教師、專家與學者們的心血。至2014年,所有辭典均已編纂完成,是臺灣原住民族語言記錄的一項重要里程碑。

體認到永續發展的重要性,原語會將這些辭典進行數位化,並推出族語線上辭典平台。此數位轉型使辭典得以具動態性、可擴展性及可維護性,成為語言推廣、教學、研究與學習的重要資源。

原語會族語線上辭典特點

  1. 線上存取與查詢

    • 使用者可實時查詢單詞、查看其定義、聆聽發音,並搜尋相關例句。

  2. 資源下載

    • 該平台提供可供離線學習的下載內容,包括:

      • 詞卡

      • 全辭典文本

      • 華語索引版本

  3. 互動學習工具

    • 功能包括:

      • 線上測驗:測試您對語言知識的掌握程度。

      • 詞彙建議:貢獻或建議新詞彙。

      • 範例與應用:提供實用句子,便於即時學習與應用。

  4. 社群參與

    • 使用者可以在討論區分享回饋或交流使用問題,營造友善互動的環境。

    • 定期諮詢專家,以確保內容更新與準確性,並將詞彙使用的最終決策權交還至各族族人。

  5. 語料收集API(應用程式介面)

    • 原語會提供的API有助於精簡語料收集以及與FormosanBank的整合,確保有效存取完整的字典內容。


語料庫處理

以下,我們概述處理流程和品質管控措施,這些措施旨在將語料重新架構為機器可讀取的格式,同時也確保其準確性和可用性。

  1. 自PDF提取語料

    • 首先,自原語會為每個語言所提供的PDF檔中提取辭典條目。使用特定標記(例如:★)來識別條目,以將辭典內容與其他文字做區分。

    • 提取的條目作為詞彙清單儲存在words_list目錄中以供進一步處理。

  2. 詞彙語料的API整合

    • 提取的詞彙可用於查詢原語會API、檢索:

      • 詞彙釋義

      • 展示詞彙使用語境的例句

      • 發音的音檔連結

    • 這些API呼叫的結果會儲存在每種語言的.PickleScrapes檔案,便於後續的高效存取與再用。

  3. XML轉換

    • 爬取的資訊經過結構化,以符合FormosanBank XML標準的XML格式,確保與FormosanBank內其他語料庫的一致性與兼容性。

      • 每個辭典條目表示為一個XML <S> 元素,其中包含:

      • <FORM>:原始單詞或片語。

      • <TRANSL>:單詞或例句的華語翻譯。

      • <AUDIO>:音訊檔案的連結或路徑。

  4. 音訊檔案的下載與整合

    • 音檔是透過API連結下載,並存放於XML/audio下各語言專屬的子資料夾中。

    • 對應的XML文件已更新包含音訊檔案的路徑,實現無縫整合。

  5. 清理與標準化

    • XML檔案經過進一步清理,移除空元素並標準化標點符號與拼寫。

    • 將HTML轉義碼替換為對應的字元,並且將kindOf="standard" 屬性新增到<FORM>元素中。原始文本標記為<FORM kindOf="original">,標準化的文本則標記為<FORM kindOf="standard">。

  6. 品質管控

    • 執行品質管控,步驟如下:

      • 將詞彙列表與API結果進行交叉檢查,確保所有條目皆已成功處理。

      • 驗證XML結構以確保符合FormosanBank的XML架構標準。

      • 手動檢查隨機樣本以核實語料的完整性。

      • 官方拼寫法為參考進行字詞頻率分析,檢查拼寫中是否存在異常情況。


語料庫的主要特點

  1. 語料面向

    • 該語料庫總計包含659,295個詞元及超過135小時的音訊,這為研究臺灣南島語提供了豐富又全面的資源。透過細緻化的製作過程,以提升其語料及音檔的完善和高品質。

  2. 音訊整合

    • 高品質的音訊檔案伴隨多數例句,為分析發音、音韻及口語語境提供寶貴資源。

  3. 翻譯支援

    • 例句均附有華語翻譯,確保研究者與學習者能夠方便使用。


重要性

  1. 語言保存

    • 該語料庫支持瀕危原住民族語的記錄與復振,確保其作為活的文化資產得以延續。

  2. 可及性

    • 此線上平台跨越地理藩籬,將資源提供予世界各地的使用者。

  3. 教育與研究

    • 憑藉豐富範例與結構化的內容,這些辭典對語言學習者與研究者而言皆是無價之寶。


存取資訊

  • 您可以瀏覽族語線上辭典的線上平台:https://e-dictionary.ilrdf.org.tw,探索16族原住民語的辭典。

  • 您可在此處找到FormosanBank中族語線上辭典語料庫的儲存庫以及重建語料庫的程式碼。


致謝

誠摯感謝各族族人、語言學家與研究人員的共同合作,本計畫才能得以完成。尤其感謝原住民族語言研究發展基金會(ILRDF)的寶貴貢獻,以及臺灣原住民族的支持與參與。


版權

根據族語線上辭典的版權頁,ILRDF所監製的著作,如辭典,屬於「合理使用」範疇,且可以複製:

本網站上所刊載以本會名義公開發表之著作,即著作人為本會者,在合理範圍內,得重製、公開播送或公開傳輸;利用時,並請註明出處。


引用說明

根據我們的使用條款,若您在任何出版物中使用此語料庫或其衍生產品,必須同時引用FormosanBank及與所使用語言相對應的辭典:

  • 阿美語: Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 阿美語 [Indigenous languages online dictionary: Amis language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 泰雅語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 泰雅語 [Indigenous languages online dictionary: Atayal language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 布農語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 布農語 [Indigenous languages online dictionary: Bunun language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 卡那卡那富語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 卡那卡那富語 [Indigenous languages online dictionary: Kanakanavu language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 噶瑪蘭語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 噶瑪蘭語 [Indigenous languages online dictionary: Kavalan language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 排灣語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 排灣語 [Indigenous languages online dictionary: Paiwan language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 卑南語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 卑南語 [Indigenous languages online dictionary: Puyuma language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 魯凱語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 魯凱語 [Indigenous languages online dictionary: Rukai language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 拉阿魯哇語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 拉阿魯哇語 [Indigenous languages online dictionary: Saaroa language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 賽夏語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 賽夏語 [Indigenous languages online dictionary: Saisiyat language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 撒奇萊雅語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 撒奇萊雅語 [Indigenous languages online dictionary: Sakizaya language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 賽德克語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 賽德克語 [Indigenous languages online dictionary: Seediq language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 邵語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 邵語 [Indigenous languages online dictionary: Thao language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 太魯閣語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 太魯閣語 [Indigenous languages online dictionary: Truku language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 鄒語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 鄒語 [Indigenous languages online dictionary: Tsou language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

  • 雅美(達悟)語:Council of Indigenous Peoples, & Indigenous Languages Research and Development Foundation. (2024, January). 原住民族語言線上辭典: 雅美語 [Indigenous languages online dictionary: Yami language]. Executing Institution: National Taiwan Normal University. https://e-dictionary.ilrdf.org.tw/

Last updated