語料庫

歡迎來到FormosanBank語料庫區!在這裡,您可以找到FormosanBank所使用的語料庫的詳細文檔。這裡集結的每個語料庫皆代表一個獨特的語料集,包含著各類文本和錄音。我們的語料庫旨在於支持語言學研究、語言教育和族語復振工作,使研究人員、教育工作者和族人皆能夠輕鬆存取與分析這些瀕危語言。以下是目前FormosanBank所包含的語料庫列表:


即將推出

除了上述已納入 FormosanBank 之外,我們還獲得了許多其他語料庫的使用許可,目前正在處理中。以下列出其中一些:

  • 台大台灣南島語語料庫(多種語言)

  • Glosbe(阿美語、太魯閣語、泰雅語、賽夏語)

  • Xuan's books(排灣語)

  • Amis Texts - Montgomery(阿美語)

  • Wakelin (1958) Yami texts(雅美語)

  • Matthew's Gospel and John's Gospel(西拉雅語)

  • 排灣族100個文本(排灣語)

  • The Sedik Language of Formosa by Erin Asai(賽德克語)

  • 張永利《賽德克參考語法》(賽德克語)

  • 張永利《噶瑪蘭參考語法》(噶瑪蘭語)

  • 潘世光阿美語字典(阿美語)

  • 阿美語萌典(阿美語)

  • Whitehorn合輯(排灣語、阿美語、泰雅語)

  • Asai's Seediq Language of Formosan(賽德克語)

  • Wilang Yutas videos(泰雅語)

  • ​hala saku la(影片-泰雅語)

  • ​hala saku la(文本-泰雅語)

  • 董同龢《鄒語研究》(鄒語)

  • 鄭恆雄(1992)《布農語的主題、主語與動詞》(布農語)

  • Blust《邵語辭典》(邵語)

  • 何&董(2006)《達悟語:語料、參考語法、及詞彙》(達悟語)


目前數據

截至您閱讀此文時,FormosanBank已涵蓋超過800萬個詞元(精確數為8,075,594)以及16個臺灣南島語共731小時40分鐘的錄音。以下為最新的語言、語料庫詞元數量以及各語言的語音時間長度分布統計:

各語言的詞元數量

語言

詞元數量

阿美語

2,213,003

泰雅語

907,763

排灣語

492,056

布農語

318,422

卑南語

340,520

魯凱語

358,879

鄒語

99,694

賽夏語

109,512

雅美(達悟)語

128,404

邵語

121,970

噶瑪蘭語

132,412

太魯閣語

115,948

撒奇萊雅語

1,504,757

賽德克語

1,044,350

拉阿魯哇語

79,458

卡那卡那富語

108,446

各語料庫的詞元數量

來源

詞元數量

Virginia Fey辭典

9,078 (僅阿美語)

原語會族語線上辭典

659,295

國立臺灣大學排灣語自動語音辨識

68,332 (僅排灣語)

總統道歉文

29,793

排灣故事

556 (僅排灣語)

維基百科

4,628,365

族語E樂園

2,680,175

各語言的語音錄製

語言

時間長度

阿美語

72小時32分鐘18秒

泰雅語

87小時4分鐘2秒

排灣語

72小時1分鐘24秒

布農語

71小時13分鐘28秒

卑南語

71小時8分鐘6秒

魯凱語

88小時19分鐘41秒

鄒語

21小時49分鐘36秒

賽夏語

23小時11分鐘33秒

雅美(達悟)語

21小時41分鐘46秒

邵語

21小時49分鐘28秒

噶瑪蘭語

25小時41分鐘1秒

太魯閣語

22小時41分鐘47秒

撒奇萊雅語

24小時39分鐘49秒

賽德克語

49小時36分鐘30秒

拉阿魯哇語

26小時23分鐘26秒

卡那卡那富語

31小時36分鐘54秒

Last updated