語料庫
歡迎來到FormosanBank語料庫區!在這裡,您可以找到FormosanBank所使用的語料庫的詳細文檔。這裡集結的每個語料庫皆代表一個獨特的語料集,包含著各類文本和錄音。我們的語料庫旨在於支持語言學研究、語言教育和族語復振工作,使研究人員、教育工作者和族人皆能夠輕鬆存取與分析這些瀕危語言。以下是目前FormosanBank所包含的語料庫列表:
即將推出
除了上述已納入 FormosanBank 之外,我們還獲得了許多其他語料庫的使用許可,目前正在處理中。以下列出其中一些:
台大台灣南島語語料庫(多種語言)
Glosbe(阿美語、太魯閣語、泰雅語、賽夏語)
Xuan's books(排灣語)
Amis Texts - Montgomery(阿美語)
Wakelin (1958) Yami texts(雅美語)
Matthew's Gospel and John's Gospel(西拉雅語)
排灣族100個文本(排灣語)
The Sedik Language of Formosa by Erin Asai(賽德克語)
張永利《賽德克參考語法》(賽德克語)
張永利《噶瑪蘭參考語法》(噶瑪蘭語)
潘世光阿美語字典(阿美語)
阿美語萌典(阿美語)
Whitehorn合輯(排灣語、阿美語、泰雅語)
Asai's Seediq Language of Formosan(賽德克語)
Wilang Yutas videos(泰雅語)
hala saku la(影片-泰雅語)
hala saku la(文本-泰雅語)
董同龢《鄒語研究》(鄒語)
鄭恆雄(1992)《布農語的主題、主語與動詞》(布農語)
Blust《邵語辭典》(邵語)
何&董(2006)《達悟語:語料、參考語法、及詞彙》(達悟語)
目前數據
截至您閱讀此文時,FormosanBank已涵蓋超過800萬個詞元(精確數為8,075,594)以及16個臺灣南島語共731小時40分鐘的錄音。以下為最新的語言、語料庫詞元數量以及各語言的語音時間長度分布統計:
各語言的詞元數量
語言
詞元數量
阿美語
2,213,003
泰雅語
907,763
排灣語
492,056
布農語
318,422
卑南語
340,520
魯凱語
358,879
鄒語
99,694
賽夏語
109,512
雅美(達悟)語
128,404
邵語
121,970
噶瑪蘭語
132,412
太魯閣語
115,948
撒奇萊雅語
1,504,757
賽德克語
1,044,350
拉阿魯哇語
79,458
卡那卡那富語
108,446
各語料庫的詞元數量
來源
詞元數量
Virginia Fey辭典
9,078 (僅阿美語)
原語會族語線上辭典
659,295
國立臺灣大學排灣語自動語音辨識
68,332 (僅排灣語)
總統道歉文
29,793
排灣故事
556 (僅排灣語)
維基百科
4,628,365
族語E樂園
2,680,175
各語言的語音錄製
語言
時間長度
阿美語
72小時32分鐘18秒
泰雅語
87小時4分鐘2秒
排灣語
72小時1分鐘24秒
布農語
71小時13分鐘28秒
卑南語
71小時8分鐘6秒
魯凱語
88小時19分鐘41秒
鄒語
21小時49分鐘36秒
賽夏語
23小時11分鐘33秒
雅美(達悟)語
21小時41分鐘46秒
邵語
21小時49分鐘28秒
噶瑪蘭語
25小時41分鐘1秒
太魯閣語
22小時41分鐘47秒
撒奇萊雅語
24小時39分鐘49秒
賽德克語
49小時36分鐘30秒
拉阿魯哇語
26小時23分鐘26秒
卡那卡那富語
31小時36分鐘54秒
Last updated