國立臺灣大學排灣語自動語音辨識

概述

國立臺灣大學(以下簡稱臺大)排灣語自動語音辨識語料庫是以語言學為基底的語料集,以擴充FormosanBank為目標而創建的。身為FormosanBank計畫的協同主持人之一,此語料庫由臺大宋麗梅博士與其他研究夥伴共同合作開發,用以提高FormosanBank語料的豐富性及完整性。

此語料庫主要收集排灣語的朗讀語音(含與其對齊的文本)以及少量的自發性語音錄音。其旨為促進語言保存與語言學研究,並特別致力於開發專門針對排灣語的自動語音辨識(ASR)工具。

內容摘要

  • 涵蓋語言:排灣語

  • 語料庫內容:

  • 文本與對齊的朗讀語音

  • 自發性語音錄音

  • 語料貢獻者:六位排灣族人(使用化名以保持匿名)

語料摘要

項目

朗讀語音

自發性語音

總計

主題

11

51

62

音檔數

16

98

114

長度

1:24:10

9:10:33

10:34:43

依參與者分類的語料概述

以下是每位錄音人員的語料詳細描述,包括錄音數量以及總時數。如前所述,為了保護隱私,錄音人員的姓名使用化名。

錄音人員

錄音數量

總時數

Loris

23

2:05:16

Zendar

35

3:01:01

Nira

30

2:29:31

Belmira

8

1:00:57

Falin

7

0:51:48

Sarnix

11

1:06:10


語料庫處理

為確保與FormosanBank的標準相容,同時保持準確性和可用性,這些語料皆經過完善處理。宋麗梅博士所收集的語料都先進行結構化處理,將每位錄音人員與每項主題及其對應的朗讀語音和文本進行聯結,隨後轉換為FormosanBank XML格式。以下是處理過程的詳細描述:

  1. XML 轉換過程

    • 轉寫的文本檔案經處理後轉換成XML格式,確保與FormosanBank其他語料庫的兼容性。

    • 錄音人員的每項主題都會對應到一個XML檔案,各個檔案包含以下元素:

      • <FORM>:包含排灣語的原始句子。

      • <AUDIO>:與該句子對應的音訊檔案名稱。

  2. 清理與標準化

    • XML檔案經過進一步清理,移除空元素並標準化標點符號及拼寫法。

    • 將HTML轉義碼替換為對應的字元,並且將kindOf="standard" 屬性新增到<FORM>元素中。原始文本標記為<FORM kindOf="original">,標準化的文本則標記為<FORM kindOf="standard">

  3. 品質管控

    • 執行品質管控,步驟包括:

      • 交叉參照詞彙清單與API結果,確保所有條目都成功處理。

      • 驗證XML結構,以確保符合FormosanBank標準。

      • 隨機樣本的手動檢查,以驗證資料的完整性。

      • 進行字詞頻率分析,將官方拼寫法原語會族語辭典語料庫進行對比,以檢查是否存在任何異常。


應用

臺大排灣語自動語音辨識語料庫是推動數個關鍵領域研究和技術發展的重要資源:

  • 自動語音辨識(ASR):對齊的文本和音訊檔案使這個語料庫在開發專為排灣語設計的語音辨識系統中具有特殊價值,預期將支援排灣語的自動轉寫軟體及語音介面等工具的開發。

  • 語言復振:支援排灣語使用者和學習者創建教材和語言學習資源。

  • 語音技術發展:促進文字轉語音系統和發音建模等工具的開發。

  • 語言學分析:支援語法、聲韻、言談架構和其他語言現象的研究。

  • 比較研究:支援臺灣南島語之間共同特徵和差異的研究。


存取資訊

  • 該語料庫作為FormosanBank的一部分,可以從這裡取得。

  • 您可以在此處找到FormosanBank中臺大排灣語自動語音辨識語料庫的儲存庫以及重建語料庫的程式碼。


版權

由於此語料庫最初是作為FormosanBank的一部分而建置的,因此版權限制與FormosanBank的規範相同(詳見下文)。


致謝

本語料庫是由國立臺灣大學語言學研究所宋麗梅博士指導的合作團隊所開發。此專案是FormosanBank計劃下的一部分,特別感謝所有參與錄音的排灣族人以及研究助理,感謝他們在這一項重要保存工作中的支持與合作。


引用說明

根據我們的使用條款,若您在任何出版物中使用此語料庫或任何從此語料庫衍生的產品,您必須同時引用FormosanBank以及以下資料:

  • Le Ferrand, É., Prud'hommeaux, E., Hartshorne, J. K., & Sung, L.-M. (2024). NTU Paiwan ASR Corpus. Electronic Resource.

Last updated