> For the complete documentation index, see [llms.txt](https://ai4commsci.gitbook.io/formosanbank/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku.md).

# 語料庫

歡迎來到FormosanBank語料庫區！在這裡，您可以找到FormosanBank所使用的語料庫的詳細文檔。這裡集結的每個語料庫皆代表一個獨特的語料集，包含著各類文本和錄音。我們的語料庫旨在於支持語言學研究、語言教育和族語復振工作，使研究人員、教育工作者和族人皆能夠輕鬆存取與分析這些瀕危語言。以下是目前FormosanBank所包含的語料庫列表：

* [族語Ｅ樂園](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/zu-yuele-yuan.md)
* [原語會族語線上辭典](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/yuan-yu-hui-zu-yu-xian-shang-ci-dian.md)
* [維基百科](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/wei-ji-bai-ke.md)
* [總統道歉](https://docs.google.com/document/d/1eXZzq4oKyJD2CIsgI6vB6sZi9e0CoYoO/edit#heading=h.1hmsyys)[文](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/zong-tong-dao-qian-wen.md)
* [國立臺灣大學排灣語自動語音辨識](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/guo-li-tai-wan-da-xue-pai-wan-yu-zi-dong-yu-yin-bian-shi.md)
* [Virginia Fey阿美語辭典](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/virginia-feyamei-yu-ci-dian.md)
* [排灣故事](/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/pai-wan-gu-shi.md)

***

### 即將推出

除了上述已納入 FormosanBank 之外，我們還獲得了許多其他語料庫的使用許可，目前正在處理中。以下列出其中一些：

* 台大台灣南島語語料庫（多種語言）
* Glosbe（阿美語、太魯閣語、泰雅語、賽夏語）
* Xuan's books（排灣語）
* Amis Texts - Montgomery（阿美語）
* Wakelin (1958) Yami texts（雅美語）
* Matthew's Gospel and John's Gospel（西拉雅語）
* 排灣族100個文本（排灣語）
* The Sedik Language of Formosa by Erin Asai（賽德克語）
* 張永利《賽德克參考語法》（賽德克語）
* 張永利《噶瑪蘭參考語法》(噶瑪蘭語)
* 潘世光阿美語字典（阿美語）
* 阿美語萌典（阿美語）
* Whitehorn合輯（排灣語、阿美語、泰雅語）
* Asai's Seediq Language of Formosan（賽德克語）
* Wilang Yutas videos（泰雅語）
* ​hala saku la（影片－泰雅語）
* ​hala saku la（文本－泰雅語）
* 董同龢《鄒語研究》（鄒語）
* 鄭恆雄（1992）《布農語的主題、主語與動詞》（布農語）
* Blust《邵語辭典》（邵語）
* 何&董（2006）《達悟語：語料、參考語法、及詞彙》（達悟語）

***

### 目前數據

截至您閱讀此文時，FormosanBank已涵蓋超過800萬個詞元（精確數為8,075,594）以及16個臺灣南島語共731小時40分鐘的錄音。以下為最新的語言、語料庫詞元數量以及各語言的語音時間長度分布統計：

#### 各語言的詞元數量

| 語言      | 詞元數量      |
| ------- | --------- |
| 阿美語     | 2,213,003 |
| 泰雅語     | 907,763   |
| 排灣語     | 492,056   |
| 布農語     | 318,422   |
| 卑南語     | 340,520   |
| 魯凱語     | 358,879   |
| 鄒語      | 99,694    |
| 賽夏語     | 109,512   |
| 雅美(達悟)語 | 128,404   |
| 邵語      | 121,970   |
| 噶瑪蘭語    | 132,412   |
| 太魯閣語    | 115,948   |
| 撒奇萊雅語   | 1,504,757 |
| 賽德克語    | 1,044,350 |
| 拉阿魯哇語   | 79,458    |
| 卡那卡那富語  | 108,446   |

#### 各語料庫的詞元數量

| 來源              | 詞元數量          |
| --------------- | ------------- |
| Virginia Fey辭典  | 9,078 (僅阿美語)  |
| 原語會族語線上辭典       | 659,295       |
| 國立臺灣大學排灣語自動語音辨識 | 68,332 (僅排灣語) |
| 總統道歉文           | 29,793        |
| 排灣故事            | 556 (僅排灣語)    |
| 維基百科            | 4,628,365     |
| 族語Ｅ樂園           | 2,680,175     |

#### 各語言的語音錄製

| 語言      | 時間長度        |
| ------- | ----------- |
| 阿美語     | 72小時32分鐘18秒 |
| 泰雅語     | 87小時4分鐘2秒   |
| 排灣語     | 72小時1分鐘24秒  |
| 布農語     | 71小時13分鐘28秒 |
| 卑南語     | 71小時8分鐘6秒   |
| 魯凱語     | 88小時19分鐘41秒 |
| 鄒語      | 21小時49分鐘36秒 |
| 賽夏語     | 23小時11分鐘33秒 |
| 雅美(達悟)語 | 21小時41分鐘46秒 |
| 邵語      | 21小時49分鐘28秒 |
| 噶瑪蘭語    | 25小時41分鐘1秒  |
| 太魯閣語    | 22小時41分鐘47秒 |
| 撒奇萊雅語   | 24小時39分鐘49秒 |
| 賽德克語    | 49小時36分鐘30秒 |
| 拉阿魯哇語   | 26小時23分鐘26秒 |
| 卡那卡那富語  | 31小時36分鐘54秒 |
