編輯說明

 

  辦理臺灣閩南語字詞頻調查工作之目的,主要為觀察臺灣閩南語字詞使用的情形,故現階段完成之成果,可供未來辦理下一進階之字詞整理、統計相關工作時參考運用。

有關臺灣閩南語字詞頻調查工作(以下簡稱本調查工作案),原先預計蒐集至少100萬語詞的臺灣閩南語書面語語料,為了達到此目標,以及考慮過程中可能會有部分已整理好的語料必須割捨,因此在執行本調查工作案之初,即以整理200萬音節(約140萬語詞)為目標。字詞頻統計時,還必須去除標點符號以及文本中非臺灣閩南語的語詞。

工作團隊先取得現有電子檔的文本目錄,從當中抽取部分文本整理,並根據文本類別尋找紙本資料,建立相關目錄,並大約估算各篇文本的音節數量,之後再選取適當數量的文本打字整理。

  

  語料的取樣,需要考慮許多因素,使其更具有代表性,除了教育部原先要求的文類要平均、每一位作者的文本不要超出總語料量的千分之五之外,本調查工作案多考慮了兩項因素:

  1. 灣閩南語書面語的文字型式,主要包括全羅馬字、漢羅合用及全漢字三種,這三種書寫方式儘量都要收進來;
  2. 過去一百多年以來,受到臺灣本身的政治、歷史等因素的影響,臺灣閩南語語詞的變化很大,所以每一個年代的文本也要儘量蒐羅,並且儘量平均。

 

下表為本調查工作所蒐集之語料的文字型式分布情形:

 

文字型式

音節數

比例

語詞數

比例

漢字

822268

39.55%

593268

39.65%

漢羅

828106

39.83%

596078

39.84%

羅馬字

428527

20.61%

306837

20.51%

總計

2078901

100.00%

1496183

100.00%

 

下表為本調查工作所蒐集之語料在各年代的分布情形:

 

 

年代

音節數

比例

語詞數

比例

1880年代

17182

0.83%

12182

0.81%

1890年代

55769

2.68%

40109

2.68%

1900年代

13979

0.67%

9954

0.67%

1910年代

115477

5.55%

87083

5.82%

1920年代

93530

4.5%

68723

4.59%

1930年代

100373

4.83%

73617

4.92%

1940年代

13967

0.67%

10359

0.69%

1950年代

70766

3.4%

50996

3.41%

1960年代

58187

2.8%

43005

2.87%

1970年代

14887

0.72%

10876

0.73%

1980年代

16219

0.78%

12016

0.8%

1990年代

424919

20.44%

310386

20.75%

2000年代

735855

35.4%

514262

34.37%

Unknown

347791

16.73%

252615

16.88%

總共

2078901

100.00%

1496183

100.00%

 

  其中,Unknown表示不確定文本的出版年代。從此表看來,各年代取樣並不平均,一方面,早期的資料可能因為年代久遠導致蒐集不易;另外,1940年代文本較少應該與戰爭有關。國民政府於1949年起實施戒嚴,臺灣閩南語的文字傳統仍然持續;1969年進一步禁止教會公報使用白話字發行,自此,臺灣閩南語書面語的發展進入黑暗期,1990年代臺語文開始復興,2000年代加上臺灣本土語言成為國民小學的正式課程,臺灣語文相關系所的成立,也使整體創作量有所增加。從本調查工作蒐集到的語料時間分布來看,其實也多少呼應了實際的臺灣語文發展狀況。

  

  至於詞頻統計的部分,鑑於此統計作業非常繁瑣,人工很容易出錯,因此本調查工作的詞頻統計工作,交由電腦系統來處理。管理人員將整理好的電子檔案送至系統後臺,系統需要離線建立索引,建立完成後,詞頻統計資料也跟著完成。這樣做的最大好處是彈性,日後若繼續增加語料,詞頻統計資料也可由系統自動產生。


   本調查工作案的詞頻統計資料分三種,第一種是全部文本的詞頻統計,第二種是去除原來書寫系統是羅馬字的詞頻統計,這是為了要檢視實際的漢字書寫情形,必 須扣除工作團隊轉寫的漢羅合用文本才公允,第三種是只統計教材小類的文本,可做為日後臺灣閩南語詞彙分級的重要參考資料。每一種詞頻統計,都提供依據詞頻 高到低排序及按照羅馬字排序的詞頻表。因為臺灣閩南語的漢字書寫十分多元,為了讓使用者方便查找某一語詞的各種漢羅(漢字)寫法,我們提供一份以臺灣閩南語羅馬字拼音方案排序的詞頻表,以羅馬字為單位,若其對應的漢羅(漢字)有不同寫法,可以將不同書寫法展開觀看,並可隨時收合。


  羅馬字的排序是一個重要問題,如果直接按照abc的順序排,k開頭的語詞會被kh開頭的語詞切開,且同一聲母、韻母的聲調排列也不是照第一聲、第二聲的順序排列。實務上,我們另外建立一欄排序值,將聲調以數字表示,符號的更換方式如下:

 

原來符號

更換符號

-

0

kh

kx

ph

px

nng

nmx

ng

nx

th

tv

tsh

tx

ts

tw

oo

ox

nn

z

 

如此,可確保排出來的順序是正確的。



        另外,以同一個漢字書寫的語詞,可能有不同的讀法,因此本系統也提供以漢字為順序的排序,當同一漢字語詞有不同羅馬字書寫,也可隨時展開或收合其羅馬字欄位。

本調查工作的詞頻統計結果,除建置網站供社會大眾查詢使用之外,也將詳列於字詞調查報告書中。