組字造字模式可自由拆解文字的部首、筆畫或區塊,並可縮放及翻轉這些元件以構成新字。


由於中文字是以圖像式構成,一字一形且數量龐大,不若英文是以簡單的字母拼湊而成,因此自從電腦產生以來,中文字的輸入、顯示以及字碼對應的問題,便在資料的建立、交換、查詢和轉移上長期困擾著使用者。「威鋒數位罕用字全解決方案」,從字碼整合作業為基礎,擴展應用至網際網路,以徹底解決中文字的輸入與顯示問題。

以圖像或檔案下載方式解決並非長久之計
在過去遇到外字的問題,通常會以轉換成圖檔,或另外提供字型檔讓瀏覽端下載等兩種方式處理,但兩者各有其缺點,易造成使用上的不便。

解決罕用字問題分為三個階段
罕用字全解決方案包含「中文字碼整合作業服務」、「金蝶外字管理系統」及「網頁外字伺服器」三個部分。希望在不需安裝額外程式、不影響系統伺服器效能,以及使用者能自由檢視、輸入、縮放、查詢等前題下,將外字的編碼問題統一化。

制定統一中文編碼規範,才能解決電腦中文字型問題
臺灣是全球使用正體中文最為廣泛的地區,但直到1977年為止,國內並無任何一種被訂定為標準規範的中文字碼,主因為政府、系統商與使用者間缺乏共識。以圖像或檔案下載方式解決並非長久之計

中文依照應用習慣可約略分為三類,一般通用的新聞、科技或流行口語等使用率較高的稱之為常用或次常用字,約一萬三千餘字;其次為戶役政單位使用的人名、地名、國名等登記用字,約三萬餘字;另外就是圖書館收藏古文典籍會出現的文化文字,數量在五萬以上。目前最廣為接受的BIG5編碼,僅有13,501個內字,當然是不敷使用的。

在過去遇到外字的問題,通常會以轉換成圖檔,或另外提供字型檔讓瀏覽端下載等兩種方式處理。但以圖檔形式顯示的話,瀏覽端用戶無法查詢或取代該字元,在動態網頁使用時,又會造成與純文字的資料庫格式不一致,必須重新改寫程式碼等缺點;至於提供字型檔供使用者安裝,則太過於被動,且自行下載的檔案會強制覆蓋系統原本的字集,若使用上有問題也無法復原。此外以現今網路上惡意程式無孔不入的情形,用戶在下載安裝檔案時也會有疑慮。解決罕用字問題分為三個階段

為因應網頁傳輸只傳字碼不傳字型的方式,唯有將所有外字都保留「字」的原貌,並對應固定的字碼,才能根本解決外字產生的困擾。有關的產品很少,目前有字型廠商威鋒數位的「罕用字全解決方案」,其中包含「中文字碼整合作業服務」、「金蝶外字管理系統」及「網頁外字伺服器」三個部分。希望在不需安裝額外程式、不影響系統伺服器效能,以及使用者能自由檢視、輸入、縮放、查詢等前題下,將外字的編碼問題統一化。

第一階段:以字碼整合作業服務建立字碼規則
「中文字碼整合作業服務」主要目的在於將原本系統內凌亂的外字集,整合至單機伺服器上,以作為整個罕用字解決方案的基礎,適用於中大型企業的資料庫轉移、編碼轉換或系統升級等需求。

首先要將企業內部網路所有外字收集,之後進行比對、校正、字碼對應等工作,以移除同字不同碼的重複外字,避免因使用者自訂習慣的不同,產生同字不同碼,或因字型不一而影響美觀等問題,並建立外字碼區的規則方便日後管理。

威鋒數位提供的字碼整合作業服務,可協助企業解決在不同平臺間大量資料的轉移需求。此外,唯有先以此服務將字碼規則建立於單機伺服器上,接下來導入外字管理系統,及網頁外字伺服器才有意義。

第二階段:用外字管理系統處理內部網路外字
「金蝶外字管理系統」適用於內部網路,分為造字端、管理端及瀏覽端三個部分。造字端程式提供二種造字方式,第一種是直接擷取CNS字庫約五萬字的現有字型。用戶在選擇欲新增的字型後,程式即會自動建立Unicode和BIG5編碼,並對應正確的倉頡及注音輸入法按鍵,同時一併造出細明體和標楷體兩種字型。

另一種為部首、筆畫組字模式。造字者可選擇現有字型的部首、筆畫、範圍或整個字,當成新字的組成部件。亦可自由翻轉,或從CNS字庫下載罕用字型,並提供重疊消除功能,以維持字體的美觀與整體性。在此模式下造字者須自行輸入對應的字碼、輸入法和讀音。

管理端程式提供系統管理者插字、刪字、換字或將字碼鎖定,並能以單一字碼或選定字碼區間兩種方式,同時管理一個或多個外字。瀏覽端程式則是用來傳送系統資訊,讓造字端主機能主動或被動更新瀏覽者電腦的外字集。

以金蝶外字管理系統新增的罕用字,預設僅支援外字注音及外字倉頡兩種輸入法。也可滿足用戶的不同需求,增加大易、嘸蝦米或行列等其他輸入法支援,或依企業規模變更系統建置模式。

第三階段:以網路外字伺服器解決網際網路外字問題
在企業對外的網站上,該如何解決外字問題?威鋒數位的「網頁外字伺服器(Web Font Server,WFS)」是將造出的外字應用在公開網站的系統,以解決公開網站無法要求使用者額外安裝瀏覽端程式的問題。

早期版本的WFS是針對IIS及Apache伺服器,採用即時網頁過濾技術,並導入網頁罕用字輸入法。但系統必須等伺服器後端程序處理完畢,送出HTML架構時才能開始搜尋系統要轉換的資料,進而產生結果。使得在測試過程中會更動到網頁程式碼的原始內容,不但影響伺服器效能,甚至會造成資料遺失或損毀,因而大多數的企業並不能接受這種形式的解決方案。

目前的WFS則是將字型伺服器獨立於網頁伺服器外,並讓瀏覽端處理字型負載,字型伺服器僅利用客戶端收集到的資源,將適合的字型檔送回客戶端,讓客戶端能正常瀏覽及輸入外字。

外字伺服器以TCP/IP通訊協定與網頁伺服器溝通,具備系統錯誤及字型封包紀錄,負責處理外字顯示與輸入等需求。外字伺服器藉由將相對應的外字字型產生後送回瀏覽端的運作方式,收集瀏覽端執行產生、刪除及重置等作業所需的資訊,以降低對網頁伺服器效能的影響。且瀏覽端不需安裝程式,就能輸入及搜尋所有造字端定義的外字。

由於注音體排版模式與一般字體不同,且字數遠較罕用字為多,又具有破音字等特殊規則,因此除了注音體顯示外,再增加可自動辨識與比對破音字的「破音字詞自動辨識技術」,以及可分析網頁文章內容的「網路注音體產生技術」,藉此判斷瀏覽端讀取文章中的正確發音,並產生相對應的注音字型。文⊙李世平


威鋒數位罕用字全解決方案

建議售價:廠商未提供

威鋒數位

(02)2655-7558

www.dynacw.com

產品名稱 網頁外字伺服器 金蝶外字管理系統
管理端 造字端 使用端
處理器需求 Pentium 4 1.6GHz Pentium 4 1.6GHz Pentium 4 1.6GHz Pentium 4 1.6GHz
記憶體需求 512 MB 256MB 256MB 128MB
磁碟空間需求 N/A 1GB 500MB 100MB
作業系統需求 Windows Server 2003以上版本 Windows Server 2000/ 2003並含IIS FTP功能 Windows 2000以上版本 Windows 98以上版本
瀏覽器需求 IE 5.0以上版本
備註 非IE瀏覽器需安裝Plug-in元件

制定統一中文編碼規範,才能解決電腦中文字型問題

臺灣是全球使用正體中文最為廣泛的地區,但直到1977年為止,國內並無任何一種被訂定為標準規範的中文字碼。

編碼規範雜亂,使用者無所適從
相較於中國大陸制定的GB18030,或香港的HKSCS,皆為政府認定核可,並強制搭載軟體實行的編碼規範,正體中文則是自1980年的CCCII起,又相繼出現了BIG5、CNS11643、ISO10646、Unicode、BIG5+、BIG5E,以及中國海字集等不同字碼對應標準。雖因長久以來的使用習慣,BIG5在後來逐漸成為主流,但因收錄字數過少(僅13,501字),也造成長久以來政府、系統廠商與使用者難以達成共識的「萬碼奔騰」現況。

外字的編碼不統一形成溝通障礙
無論何種編碼方式,都分成兩個部分,一個是原先收錄的字符字碼,如常用字、次常用字、數字、符號等,這些我們可統稱為「內字」,而另一個則是有碼無字的空碼位。當一個符號或字型不屬於內字範圍時,我們便需要以造字的方式,將其自行安置在空碼位的某個欄位上,讓這個字能有對應的字碼,此時這個字便稱為「外字」。

由於存放的碼位,以及使用的編碼方式因人而異,也因此會產生訊息傳遞時會有外字無法顯示,或顯示錯誤等問題。這不但使含有外字的資料無法檢視、查詢或編輯等弊病,發生在公文或病歷等重要屬性文件時,更有可能因漏字或誤字而造成難以衡量的影響。最明顯的例子,便是前行政院長游錫 ,以及歌手陶吉吉名字中的「 」和「吉吉」在Unicode屬於內字,但在BIG5卻是外字,因此若從Unicode的環境轉移至BIG5的環境,便會因缺乏對應字碼而無法顯示。

解決字型問題同時節省成本
過去在政府機關中,常見因上述外字問題無法解決,而必需以紙本傳遞公文的情況。公文往返期間尚需依賴人工不斷反覆確認,如此不但耗時耗力,紙張列印的成本也是一筆龐大的開銷;對於大型企業來說,資料庫程式寫好後,才發現外字無法存取的情況也屢見不鮮,系統修改甚至重寫所延誤的商機更是難以衡量。

因此無論政府機關、教育單位、企業組織甚至旅遊休閒社團,都應及早正視並設法解決罕用字的編碼問題,如此不但可以節省紙本耗材的支出,同時也能增加中文電腦的應用範圍與效率,進而提升企業甚至於國家競爭力。文⊙李世平


CNS11643與CCCII的選擇

CNS11643(國家標準中文交換碼)為行政院主計處電子處理資料中心,於1983年制定並公布的中文編碼規則,起初僅收錄13,051個常用及次常用字,後於1992擴編至48,027個字符,雖不及國字整理小組於1989收編於CCCII(中文資訊交換碼)的75,684字,但因CCCII的許多問題,使得CNS11643逐漸成為主流規範。

CCCII最主要的問題是,在相似字及正簡體字轉換之間,刻意採用相似的編碼,且許多無相似字或無簡體字的文字,卻因此產生空碼位無法使用。此外因CCCII是以三個位元組來代表一個中文字,所占用的儲存空間比目前通行的二個位元組要大1.5倍,這在十多年前儲存容量有限的時代,軟體廠商或用戶均無法接受,因此在最主要的家用電腦平臺上無法使用,也是CCCII會逐漸沒落的主要原因。近年來CCCII的維護及更新也已停止。

然而CNS11643問題也不小,於制定之初,在碼位編排與中文字型相聯性上並未考慮周全,致使許多字碼的轉換與存放沒有固定的規則,對應到Unicode或BIG5編碼環境時,便需以手動方式逐字轉換,不但曠日廢時也增加錯誤率。因此,中文字的編碼問題要徹底解決,仍有待政府與相關學者的努力。文⊙李世平

熱門新聞

Advertisement