「現在政府開放資料仍包含了一堆非結構化項目」,數位政委唐鳳明白地點出開放資料的問題。當政府以衝高開放資料筆數為目標時,並未兼顧資料的可用性,至今許多資料仍未能達到機器可讀標準,更遑論要進一步做Open API。

今年度開放政府重要的目標之一,正是加強資料可用性,唐鳳說,在政府資料開放平臺(data.gov.tw)上完成資料品質的自動檢核機制,讓政府資料開放平臺回歸到以提供結構化資料為主。因此,未來開放政府重心不再充開放資料筆數,而是透過程式自動檢測資料品質,以提升開放資料可用性。

明年初公布開放資料品質檢測結果

國發會資訊管理處處長潘國才指出,國發會預計於今年第二季完成各部會與縣市政府的資料開放品質初測,接下來於今年下半年向政府機關示範比較好的做法,並指導各單位改善資料品質,明年初將正式對外公布資料品質檢測結果。

而政府資料品質提升機制,採自動化工具進行檢測,主要分為資料可直接取得、資料易於被處理、資料易於理解三大構面,而在人工檢測部分,主要在於檢查政府對於民眾意見回饋的處理情況。

以資料可直接取得來說,其中包含2項指標,分別是資料資源連結有效性,也就是資料資源連結是否可回傳成功的HTTP狀態碼(HTTP Status Code),與資料資源可直接下載,為使用者能透過資料資源連結直接獲取資料,無需透過登入或任何額外的操作形式。

潘國才說,各政府機關將資料放上政府開放資料平臺時,其連結需有效、且需將非結構化資料,轉成結構化資料,至少需以csv、xml、json等格式開放出來,才易於民眾處理資料,「而非民眾為了要抓取開放資料,還要特別寫一支程式才能讀取資料」。

而結構化資料需為單一列(Row)標題的表格式資料,每列資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等,常見檔案格式為CSV,以及可轉為表格型態的JSON、XML、GeoJSON、KML、KMZ、SHP等。

各部會需加緊訂出資料Schema規範

而為了方便民眾理解資料,國發會也會針對結構化資料,要求公務人員在詮釋資料方面要按照資料集詮釋資料標準規範,提供資料資源編碼及描述主要欄位,並會檢查資料編碼與詮釋資料描述,也就是詮釋資料的內容需和資料一致, 以供民眾有效地存取與檢索資料等。

國發會也加緊腳步訂出結構描述(Schema)的規範,若民眾無法得知資料Schema,便難以比對出資料內容的正確性和屬性。預計於今年下半年,國發會將進一步訂定各領域較完整的資料標準,也就是定義出每一項資料欄位特性,另外,也將在網站底層訂出共通的資料標準,當資料在政府網站上流通時,要有哪些規格,才能搭載領域資料標準處理。

近期在唐鳳協助下,潘國才說,國發會已訂出訂定資料標準框架九大流程,也就是在選定主題與資料範疇之後,透過召開跨部會會議,盤點資料並評估台灣現有的資料標準,如TC211與網路資訊產業標準與現行法規等,之後建立資料標準驗證機制等,再透過意見回饋機制來回反覆修正資料標準。他也說,目前交通部在「公共運輸整合資訊流通服務平臺」(Public Transport Data eXchange,PTX)已經訂出該領域比較完整的資料標準,會持續要求各機關要訂出該領域資料的Schema。

不過,在訂出規範之後,他說,有時公務人員在上級要求下交出Schema,儘管和資料屬性有關,但還是可能有許多錯誤,政府計畫明年開始,還要花上一段時間以人工檢測。

評估成立國家級資料儲存中心

此外,國發會同時也在推動跨機關的資料整合工作,不過潘國才說,過程中遇到比較大困難包括,許多機關在提供資料給其他部會使用時,在擔心違反個資法下,皆要求其他會要到自家單位內使用,而不可以被拷貝出去。這樣一來,各部門的資料便難以進一步整合,以挖出其中有價值的資料。

他說,「政府在應萬全保護民眾個資之外,也需思考修改個資法的可能」,並透過財團法人等機構發展加解密技術,讓各部會能夠比較放心把資料交給另外一個部會運用。為此,也正在思考成立國家資料中心,透過成立統一的國家級資料儲存中心,來整合各政府單位的資料,並納入技術部門發展加解密技術,與引入資安處等國家資安單位監督,來保護國家級資料。


Advertisement

更多 iThome相關內容