經濟新潮社

後設資料(Metadata)就在我們身邊,一直都是。在電子化無所不在的當今年代中,你所用的裝置幾乎樣樣都依賴後設資料或加以產出,或是都有。可是當後設資料運行良好時,它就會遁入背景、不受注意,並且幾乎隱於無形。後設資料在2013年夏天成為暴紅的事件,有部分就是肇因於此。

2013年5月時,美國國家安全局(National Security Agency,NSA)的外包人員愛德華.史諾登(Edward Snowden),飛到香港與《衛報》(The Guardian)的記者見面。史諾登在那裡交出了為數眾多的機密文件,是關於國安局在美國境內的監視計畫。其中一件計畫稜鏡(PRISM)包括直接從電信公司蒐集電話通聯資料。不用說,當《衛報》把報導刊登出來時,這是非常大的新聞。

對於史諾登的爆料,美國媒體的反應各異而且變化很顯著。當下的反應是火大國安局在蒐集美國公民的資料。當情勢變得明朗,國安局只是在蒐集通聯的後設資料,而不是通聯本身時,風波很快平息。換句話說,國安局並沒有在從事竊聽。隨著媒體進一步探討,從後設資料中究竟「只」能推論出多少的個資,此後便是眾說紛紜。

2013年末,史丹福法學院網際網路與社會中心(Stanford Law School Center for Internet and Society)的研究人員做了metaphone的研究,企圖複製國安局在電話後設資料上所蒐集的資料。他們所發現到的是,從後設資料中「只」能推論出的資訊量著實驚人。後設電話的研究人員所通報的一個例子是,研究參與者打給了「居家改裝店、鎖匠、水耕業者和麻藥品店」。這位個人撥打這一切通聯的理由容或是全然無辜,這些通聯容或是毫不相干……但這卻不是大部分的人很可能會形成的推論。

很多後設資料都是跟電話通聯相關,尤其是手機的通聯。通聯最顯而易見的後設資料片段,有八成就是撥打者和接聽者的電話號碼。接下來,當然就有通聯的時間和長度。而對於撥打自智慧型手機的通聯,大部分都有GPS的功能,則會有撥打者和接聽者的位置,而精確度至少是達到電話所位在手機基地台的範圍內。手機通聯所具有的相關後設資料比這要多,但連這麼小量也足以使隱私的倡導者裹足不前。因為連沒在通聯時,你的電話也會跟當地的基地台交換資料。而且你的電話當然想必是由你帶在身上。因此,你在任何既定時刻的位置記錄和你的逐時移動或許就會遭到手機服務業者所蒐集……而且事實上就是在蒐集,如同史諾登的爆料所揭露。

於是後設資料這個字詞就進到了公眾談話中。只不過,有鑑於後設資料有多遍布,關於它的公眾談話八成都嫌遲了;它理應更為人所了解才是。在電腦運算無所不在的現行年代中,後設資料變成了基礎結構,有如電力網或公路系統。這些片段的現代基礎結構不可或缺,但也只是冰山一角:例如當你按下電燈開關時,你就是一組龐大科技與方針的終端使用者。個別來說,這些科技與方針或許無足輕重,而且或許看似微不足道……但加總起來卻帶有深遠的文化與經濟意涵。後設資料的道理相同。後設資料有如電力網和公路系統,會遁入日常生活的背景,而理所當然被視為就是使現代生活運轉順暢的一環。

身為現代世界的公民,對於電力網和公路系統以及其他許多片段的現代基礎結構,我們全都熟知,並有合理(雖然八成是不完整)的了解。但除非你是資訊科學家,或者是在國安局服務的情報分析師,否則八成不會對後設資料等同視之。

隱形的後設資料

當你從本地書店的架上拿起本書時,你就在使用後設資料了。本書是什麼吸引了你,而使你把它拿起來?題名、出版者、封面圖樣?不管是什麼,幾乎肯定不會是書本身的內容。當然,既然你正在閱讀本文,你就會有一些關於本書內容的資訊,但在把它拿起來前,你並沒有這些資訊。你必須依賴其他的線索,其他關於書的資訊片段。其他這些資訊片段就是後設資料:關於本書的資料。

當後設資料運行良好時,它會遁入背景,幾乎是來到隱於無形的地步。對於看到書有題名、出版者和封面圖樣,你習慣到八成甚至不會留意到本書也有這些東西。假如本書沒有題名、出版者或封面圖樣,你八成才會留意到。對於書的後設資料是買書環境的一環,我們受制約到甚至不會想到它。對於很多事物的後設資料是日常環境的一環,我們受制約到甚至不會想到它。它是何以致此?

後設資料簡史

雖然後設資料這個字詞只有幾十年之久,但圖書館員已對後設資料著墨了數千年。只不過,我們現在所謂的「後設資料」在歷史上都叫做「圖書館目錄資訊」。圖書館目錄資訊意在解決非常特定的問題:幫助圖書館的使用者在圖書館的藏書中查找材料。

想像一下試算表:各列是單一物件的紀錄,各欄是那些物件的單一特性。現在想像一下,試算表裡包含了關於書的資料。欄的標頭會是什麼?題名、作者、出版者、出版日期、出版地、主題、索書號、頁數、格式、尺寸,你說了算。然後各列會是單一書籍的紀錄,包含該特定書籍所有這些的資料片段。這樣的試算表就能當成圖書館目錄。

後設資料不只用於圖書館

圖書館員投身於描述事物超過二千年,無可避免會頗有心得。對於要怎麼有效描述事物,圖書館學的學科為其餘的世人帶來了許多見解。

多半是拜圖書館員鑽研出描述的原則所賜,現在任何人都有可能把這些原則應用在所需描述的任何事物上。再者,等到資料庫發明出來,使儲存結構化資料變得可能,任何人要以電子化的方式來創造和維護後設資料也變得可能了。

圖書館固然是電腦和資料庫科技的早期採用者,但絕非唯一的採用者。在微型電腦發展出來前,圖書館的後設資料是儲存在專門和特製的典藏處,好比說書架清單和卡片目錄。微型電腦發展出來後,圖書館的後設資料在儲存上所使用的科技便與其他每個人所用的相同。

隨著資料庫問世,要創造和儲存任何事物的結構化資料都變得可能,而不光是資源在圖書館藏書裡的描述性後設資料。當然,尤其是企業和政府所蒐集和儲存的結構化資料向來都不只是為了描述性的目的:損益分類帳、庫存、稅務文件、人口普查之類都有紙本、甚至是更早的科技存在了數千年。但這些從來不被視為後設資料;這些純粹是企業、政府和其他的組織所產出的文件,並且使日常營運成了可能。不過,隨著這些營運逐漸用電腦來執行,不僅是從關於它的文件來參照物件變得可能,提供實際的鏈結到檔案系統中的該物件也變得可能。隨著網路深植到現代生活中,這項功能也深植到現代生活中,而這有多徹底改變了文件的管理方式,則是一言難盡。

形形色色的後設資料

對於後設資料是日常環境的一環,各位受制約到甚至不會想到它。地圖、標誌、儀表板、網路搜尋、自動提款機、雜貨店、電話通聯,清單可以無窮無盡。對於這一切事物是如何營運,以及各位是如何與它互動,主軸就在於後設資料。應付銀行系統或電話網的整個複雜性會讓大部分的人生厭。與現代生活的複雜系統互動必須靠系統與我們之間的簡化介面,而這道介面通常就要依賴後設資料。(摘錄整理自《Metadata後設資料》第一章)

圖片來源_經濟新潮社

 書名  Metadata後設資料

傑福瑞.彭蒙藍茲(Jeffrey Pomerantz)/著;戴至中/譯

經濟新潮社出版

售價:420元

 作者簡介 

傑福瑞.彭蒙藍茲(Jeffrey Pomerantz)

資訊科學家、雪城大學資訊研究學院博士。曾任北卡羅來納大學教堂山分校資訊圖書學院助理教授、華盛頓大學資訊學院客座教授。他也曾在大規模開放線上課程(MOOCs)開設「Metadata:組織和探索資訊」(Metadata: Organizing and Discovering Information)課程,深獲學生喜愛。

熱門新聞

Advertisement