2024年10月
歡迎來到FormosanBank 2024年10月份電子報!我們在保存和復振臺灣南島語言的使命上取得了顯著進展。FormosanBank專案計畫於2023年9月1日正式啟動,以下是最新進展摘要:
計畫進度 很高興向各位報告,FormosanBank語料庫已涵蓋超過600萬個詞彙和360小時的語音語料。目前正進行最後階段的品質管控,並準備首次正式發布。
機器翻譯的進展 本計畫在華語、阿美語和排灣語之間的初步機器翻譯工作已取得滿意成果。BLEU得分顯示翻譯可用,目前正努力獲取更多訓練資料,以進一步提高準確度。
自動語音辨識(ASR) 自動語音辨識技術持續進步,初步模型在幾種語言中的錯誤率已低於50%,這是瀕危語言轉錄中重要的里程碑。目前正持續使用更多語料來完善和增強這些結果。
史料資源數位化 在歷史記錄數位化方面已取得有效的進展,包括西拉雅語的光學字元辨識改編作業。這些努力旨為使檔案資料能便於研究與教育使用。
計算語言學研究 本計畫已對臺灣南島語的句子結構和語法語音系統進行計算研究,預計很快就會有初步結果。
如需更詳細的說明,請參閱下方完整的 2024 年 10 月電子報:
隨著我們持續擴展 FormosanBank 並透過創新技術推動語言保存,敬請關注更多最新消息!
Last updated