# 語料庫

歡迎來到FormosanBank語料庫區！在這裡，您可以找到FormosanBank所使用的語料庫的詳細文檔。這裡集結的每個語料庫皆代表一個獨特的語料集，包含著各類文本和錄音。我們的語料庫旨在於支持語言學研究、語言教育和族語復振工作，使研究人員、教育工作者和族人皆能夠輕鬆存取與分析這些瀕危語言。以下是目前FormosanBank所包含的語料庫列表：

* [族語Ｅ樂園](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/zu-yuele-yuan)
* [原語會族語線上辭典](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/yuan-yu-hui-zu-yu-xian-shang-ci-dian)
* [維基百科](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/wei-ji-bai-ke)
* [總統道歉](https://docs.google.com/document/d/1eXZzq4oKyJD2CIsgI6vB6sZi9e0CoYoO/edit#heading=h.1hmsyys)[文](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/zong-tong-dao-qian-wen)
* [國立臺灣大學排灣語自動語音辨識](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/guo-li-tai-wan-da-xue-pai-wan-yu-zi-dong-yu-yin-bian-shi)
* [Virginia Fey阿美語辭典](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/virginia-feyamei-yu-ci-dian)
* [排灣故事](https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku/pai-wan-gu-shi)

***

### 即將推出

除了上述已納入 FormosanBank 之外，我們還獲得了許多其他語料庫的使用許可，目前正在處理中。以下列出其中一些：

* 台大台灣南島語語料庫（多種語言）
* Glosbe（阿美語、太魯閣語、泰雅語、賽夏語）
* Xuan's books（排灣語）
* Amis Texts - Montgomery（阿美語）
* Wakelin (1958) Yami texts（雅美語）
* Matthew's Gospel and John's Gospel（西拉雅語）
* 排灣族100個文本（排灣語）
* The Sedik Language of Formosa by Erin Asai（賽德克語）
* 張永利《賽德克參考語法》（賽德克語）
* 張永利《噶瑪蘭參考語法》(噶瑪蘭語)
* 潘世光阿美語字典（阿美語）
* 阿美語萌典（阿美語）
* Whitehorn合輯（排灣語、阿美語、泰雅語）
* Asai's Seediq Language of Formosan（賽德克語）
* Wilang Yutas videos（泰雅語）
* ​hala saku la（影片－泰雅語）
* ​hala saku la（文本－泰雅語）
* 董同龢《鄒語研究》（鄒語）
* 鄭恆雄（1992）《布農語的主題、主語與動詞》（布農語）
* Blust《邵語辭典》（邵語）
* 何&董（2006）《達悟語：語料、參考語法、及詞彙》（達悟語）

***

### 目前數據

截至您閱讀此文時，FormosanBank已涵蓋超過800萬個詞元（精確數為8,075,594）以及16個臺灣南島語共731小時40分鐘的錄音。以下為最新的語言、語料庫詞元數量以及各語言的語音時間長度分布統計：

#### 各語言的詞元數量

| 語言      | 詞元數量      |
| ------- | --------- |
| 阿美語     | 2,213,003 |
| 泰雅語     | 907,763   |
| 排灣語     | 492,056   |
| 布農語     | 318,422   |
| 卑南語     | 340,520   |
| 魯凱語     | 358,879   |
| 鄒語      | 99,694    |
| 賽夏語     | 109,512   |
| 雅美(達悟)語 | 128,404   |
| 邵語      | 121,970   |
| 噶瑪蘭語    | 132,412   |
| 太魯閣語    | 115,948   |
| 撒奇萊雅語   | 1,504,757 |
| 賽德克語    | 1,044,350 |
| 拉阿魯哇語   | 79,458    |
| 卡那卡那富語  | 108,446   |

#### 各語料庫的詞元數量

| 來源              | 詞元數量          |
| --------------- | ------------- |
| Virginia Fey辭典  | 9,078 (僅阿美語)  |
| 原語會族語線上辭典       | 659,295       |
| 國立臺灣大學排灣語自動語音辨識 | 68,332 (僅排灣語) |
| 總統道歉文           | 29,793        |
| 排灣故事            | 556 (僅排灣語)    |
| 維基百科            | 4,628,365     |
| 族語Ｅ樂園           | 2,680,175     |

#### 各語言的語音錄製

| 語言      | 時間長度        |
| ------- | ----------- |
| 阿美語     | 72小時32分鐘18秒 |
| 泰雅語     | 87小時4分鐘2秒   |
| 排灣語     | 72小時1分鐘24秒  |
| 布農語     | 71小時13分鐘28秒 |
| 卑南語     | 71小時8分鐘6秒   |
| 魯凱語     | 88小時19分鐘41秒 |
| 鄒語      | 21小時49分鐘36秒 |
| 賽夏語     | 23小時11分鐘33秒 |
| 雅美(達悟)語 | 21小時41分鐘46秒 |
| 邵語      | 21小時49分鐘28秒 |
| 噶瑪蘭語    | 25小時41分鐘1秒  |
| 太魯閣語    | 22小時41分鐘47秒 |
| 撒奇萊雅語   | 24小時39分鐘49秒 |
| 賽德克語    | 49小時36分鐘30秒 |
| 拉阿魯哇語   | 26小時23分鐘26秒 |
| 卡那卡那富語  | 31小時36分鐘54秒 |


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://ai4commsci.gitbook.io/formosanbank/zh/yu-liao-ku-jia-gou/yu-liao-ku.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
