臺灣南島語方言
目前臺灣官方承認16個臺灣南島語,共包含42種方言別。FormosanBank以此為本,直接在XML檔案中標註方言別(詳情請參閱FormosanBank的XML格式說明)。儘管有其他機構與學者提出不同的方言分群論述,在此我們以臺灣官方認可的命名為準,不進行其他額外判斷。
當特定的文本或音檔明確對應於官方認可的方言時,便會直接在XML中標註該方言名稱。反之,若無法被明確歸納於某方言分類者,其相關的方言訊息將僅記錄於附帶的語料文檔中。上述標註乃為確保檔案的準確性與透明度,同時也使語料庫使用者更容易了解每項資源的範疇與來源。
CSV對照檔案
為有效處理多種命名規範的複雜性,主語料庫包含一個CSV檔案。此檔案作為一把「鑰匙」或參考點,讓使用者們能夠在不同的方言名稱之間進行轉換。該CSV檔包括以下欄位:
language(語言):該方言所屬的官方認可的臺灣南島語名稱。由於某些語言包含多種方言,此欄位有助於將相關的方言歸類。例如:「阿美語」。
official(官方):FormosanBank語料庫所採用的官方方言名稱;XML和其他主要資料檔案中皆是採用此名稱。例如:「恆春阿美語」(阿美語的一種方言群)。
Glottocode(Glotto碼):對應於該方言的標準化Glottocode識別碼(如果已有)。Glottocode是Glottolog資料庫用以標示語言和方言的唯一識別碼,有助於不同語言資源的語料連結。例如:'cent2104' 指「海岸阿美語」。
OtherNames(其他名稱):任何與官方方言名稱對應的替代方言名稱。由於一個方言可能有多個名稱,因此CSV檔中同一個「官方」方言欄可能會有多筆資料。隨著新名稱的出現,這些條目將進行更新或擴充。
持續更新
此CSV檔案是一份活躍文件。隨著本計畫的進展,並與語言學家和母語人士的密切合作以及新來源的獲取,此份檔案將會持續更新、擴充。透過一個集中式的、權威的方言名稱對應表,期望能促進語料庫使用者、研究人員及族人更一致且準確地識別、比較及討論臺灣南島語方言。
Last updated