FormosanBank
Last updated
Last updated
FormosanBank作為一個集中式的語料庫,涵蓋了16種現存的臺灣南島語。此計畫旨在讓語言學家、教育工作者和臺灣原住民族能夠輕鬆存取這些資源,促進研究、教育以及語言保存工作。語料庫中的資料包括:
文本與轉寫:數位化的文本、音檔轉寫、字典和參考語法。
語音檔案:各種口語語料,包括原住民族語新聞、電視節目、傳統故事和訪談,涵蓋不同的方言和說話者特徵。
經註解的語料庫:詳盡的語言學註釋,包括詞彙的解釋、語素的切割、語音轉寫以及多語言的翻譯。
語料收集仍在進行中,包含各種來源如:字典、歷史文獻、原住民族媒體和學術出版品。FormosanBank目前已處理的資料包含阿美語和排灣語的YouTube影片、原住民族談話性節目、電子書和學術文本等(請參見的清單)。
FormosanBank使用由Pangloss Collection開發的標準化XML格式,以確保跨語料的一致性。格式以層級方式組織語料,視需求對每一層級進行注釋例如「文本」、「句子」、「詞彙」和「語素」等。此結構亦允許其他額外的標註如翻譯和音檔音源資訊等,使語料既適用於語言學分析又合適於計算處理。
標準化格式還包含基本的後設資料,如:引用、版權訊息和語言代碼,確保透明度和正確的歸屬性。透過一致的格式,FormosanBank冀望促進語料共享、分析以及與不同語言學工具的整合。
FormosanBank中的每項資源都有其各自的版權和授權條款,其中大多數資料是根據創用CC授權條款提供,以鼓勵再利用和共享。授權詳情,包括版權持有者和使用限制,會在各個資源頁面上提供。這樣的安排使語料盡可能地易於存取,也確保透明度和對智慧財產權的重視。
FormosanBank的資源旨在支持語言學分析和不同社群使用。其語料依據以下方式構成:
便於搜索和檢索的後設資料,如語言、方言、說話者訊息和來源詳情。
提供APIs和可下載的語料集,以促進計算研究並與其他工具整合。
此格式的靈活性也允許研究者在不同層級上標註語料,使FormosanBank成為無論是基本語言記錄或是進階自然語言處理等多種研究用途的寶貴資源。
FormosanBank不僅是研究工具,它在復振瀕危的臺灣南島語方面發揮著至關重要的作用。藉由良好架構且可存取的語言資源庫,FormosanBank支持:
教育措施:創建可在學校和原住民族地區(部落)使用的教學材料和學習資源。
族人主導的記錄專案:協助當地族人錄製和保存他們的語言。
數位工具開發:促進語言技術的創建,如:語音辨識、機器翻譯和語言學習應用程式。
此計畫正持續擴展,計劃擴充語料庫、提升語料品質,並整合新的語言學研究技術。藉由與原住民族族人、語言學家和技術人士的合作仍然是FormosanBank成熟的核心要素,確保該計畫維持以族人為導向並兼顧文化敏感度。