2024年10月

歡迎來到FormosanBank 2024年10月份電子報!我們在保存和復振臺灣南島語言的使命上取得了顯著進展。FormosanBank專案計畫於2023年9月1日正式啟動,以下是最新進展摘要:

  1. 計畫進度 很高興向各位報告,FormosanBank語料庫已涵蓋超過600萬個詞彙和360小時的語音語料。目前正進行最後階段的品質管控,並準備首次正式發布。

  2. 機器翻譯的進展 本計畫在華語、阿美語和排灣語之間的初步機器翻譯工作已取得滿意成果。BLEU得分顯示翻譯可用,目前正努力獲取更多訓練資料,以進一步提高準確度。

  3. 自動語音辨識(ASR) 自動語音辨識技術持續進步,初步模型在幾種語言中的錯誤率已低於50%,這是瀕危語言轉錄中重要的里程碑。目前正持續使用更多語料來完善和增強這些結果。

  4. 史料資源數位化 在歷史記錄數位化方面已取得有效的進展,包括西拉雅語的光學字元辨識改編作業。這些努力旨為使檔案資料能便於研究與教育使用。

  5. 計算語言學研究 本計畫已對臺灣南島語的句子結構和語法語音系統進行計算研究,預計很快就會有初步結果。

如需更詳細的說明,請參閱下方完整的 2024 年 10 月電子報:

隨著我們持續擴展 FormosanBank 並透過創新技術推動語言保存,敬請關注更多最新消息!

Last updated