# 臺灣南島語方言

目前臺灣官方承認16個臺灣南島語，共包含42種方言別。FormosanBank以此為本，直接在XML檔案中標註方言別（詳情請參閱[FormosanBank的XML格式](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/formosanbank-de-xml-ge-shi)說明）。儘管有其他機構與學者提出不同的方言分群論述，在此我們以臺灣官方認可的命名為準，不進行其他額外判斷。

當特定的文本或音檔明確對應於官方認可的方言時，便會直接在XML中標註該方言名稱。反之，若無法被明確歸納於某方言分類者，其相關的方言訊息將僅記錄於附帶的語料文檔中。上述標註乃為確保檔案的準確性與透明度，同時也使語料庫使用者更容易了解每項資源的範疇與來源。

***

### CSV對照檔案

為有效處理多種命名規範的複雜性，主語料庫包含一個[CSV檔案](https://github.com/FormosanBank/FormosanBank/blob/main/dialects.csv)。此檔案作為一把「鑰匙」或參考點，讓使用者們能夠在不同的方言名稱之間進行轉換。該CSV檔包括以下欄位：

* language（語言）：該方言所屬的官方認可的臺灣南島語名稱。由於某些語言包含多種方言，此欄位有助於將相關的方言歸類。例如：「阿美語」。
* official（官方）：FormosanBank語料庫所採用的官方方言名稱；XML和其他主要資料檔案中皆是採用此名稱。例如：「恆春阿美語」（阿美語的一種方言群）。
* Glottocode（Glotto碼）：對應於該方言的標準化[Glottocode識別碼](https://glottolog.org/)（如果已有）。Glottocode是Glottolog資料庫用以標示語言和方言的唯一識別碼，有助於不同語言資源的語料連結。例如：'cent2104' 指「海岸阿美語」。
* OtherNames（其他名稱）：任何與官方方言名稱對應的替代方言名稱。由於一個方言可能有多個名稱，因此CSV檔中同一個「官方」方言欄可能會有多筆資料。隨著新名稱的出現，這些條目將進行更新或擴充。

***

### 持續更新

此CSV檔案是一份活躍文件。隨著本計畫的進展，並與語言學家和母語人士的密切合作以及新來源的獲取，此份檔案將會持續更新、擴充。透過一個集中式的、權威的方言名稱對應表，期望能促進語料庫使用者、研究人員及族人更一致且準確地識別、比較及討論臺灣南島語方言。
