碁峰資訊

在人工智慧的時代中,站穩腳步的人已經破解複雜性的密碼,將數據驅動的實驗落實到業務中的各個面向,這並不是引人注意的巧合,因為快速學習且持續變化,並且與機器智能合作,才能超越人類邏輯和推理來理解現實。

容我虛構一家全球音樂串流媒體公司Daff, Inc.,並以它為例說明。數據網格是Daff的數據戰略、架構和營運模型的支柱,讓他們能夠以數據和機器學習(ML)的方式,有規模且快速地實驗、學習和適應。

在過去3年中,Daff將他們管理和分析數據的方式,轉變為一種稱為數據網格的方法,從大規模分析數據中獲取價值,進一步加強數據和業務兩者間的聯繫。

Daff部署複雜的機器學習模型,這些模型不斷地在組織內外部多樣且持續進化的數據集合中找出特定模式。Daff為聽眾提供專門針對個人品味、心情、特定時間及地點的推薦清單。利用數據,為藝術家提供目標明確的活動,以幫助他們擴大觸及率。

讓我們來看看Daff是如何做到的。

數據好奇心與實驗的文化

Daff由不同業務單元組織而成,稱為「領域」(domains)。播放器領域專注於可攜帶式設備所使用的核心音樂播放器,合作領域則尋求商業夥伴,例如健身應用程式和藝術場所,而播放清單領域則研究更多且進階的播放清單產生方法。每個領域都結合了軟體開發和更廣泛的業務能力,並且負責可以支持該領域的軟體元件。

身處Daff你會注意到,不論何時,每個領域都在同時進行各項實驗,用以改進其應用程式和服務。例如,播放器領域團隊不斷嘗試與使用者更好的互動方法,合作領域團隊使用從各種外部來源,如健身平台、藝術場所等獲取的數據作實驗,播放清單領域團隊不斷套用更先進的機器學習方法,來推出並推薦更吸引人的合輯。藝術家領域團隊利用機器學習方法,來發掘那些一般人會忽視的藝術家,並且吸引他們加入。

每個業務的領域以及與它們協作的技術團隊,都大加讚揚有意義、值得信賴且安全的數據。不僅如此,每個人都希望在整個組織中依照需求存取數據能成為一種常態。他們知道自己在實現這個目標中所扮演的角色,對數據的解讀方式、來源與提供方式負起全責,並且在其中占有一席之地。

只要可以利用舊有的數據和模式來實作該領域的特性或功能,每個領域都會積極的套用機器學習模型。舉例來說,播放清單團隊使用生成機器學習模型,來產生奇妙到讓人覺得不可思議的合輯,可針對不同情境推出不同內容,不管是跑步還是專注學習等。

這種文化與3年前的Daff形成強烈對比。當時他們將與數據有關的蒐集、實驗和相關情資工作,外包給獨立的數據團隊,該團隊承受極大壓力,因各個領域都不相信所謂的數據,或者是經常找不到他們需要的數據。這讓數據團隊一直在做彌補工作,可能是上游應用程式和資料庫因為任何一個微小變化而破壞的數據管道,也可能是要前一天亟需數據解決方案的某個領域。各領域不用對數據的易獲得性、可靠性和可用性有任何的責任,也不感興趣;而取得正確數據的準備時間和其他阻力,也會讓這些領域很難執行新的實驗。

數據和機器學習的嵌入式合作夥伴關係

數據實驗文化似乎好得令人難以置信。若想知道它實際運作的方法,可參考Daff最近開發的數據驅動業務功能故事,來了解相關人員的參與經驗。

智慧型音樂播放清單已經成為Daff平台一項成功的功能。音樂播放清單領域在許多機器學習模型上運作,這些模型相互交叉各種來源的數據,包括聽眾所在地、正在做的事情、他們的興趣以及參與的場合等,為聽眾推薦更匹配的播放清單。

播放清單機器學習模型會利用整個組織不同來源的分析數據產品模式,例如:

● 聽眾的領域、個人檔案、社群網絡、位置等共享數據,來了解聽眾背景和與其相似的族群。

●播放器領域、播放會議和播放事件等共享數據,來了解聽眾在播放器設備上的行為和偏好。

●來自音樂專輯領域、音樂曲目和音樂檔案等數據,來了解音樂曲目的檔案和分類。

有多種經過訓練的機器學習模型可以產生智慧播放清單,如星期一播放清單、星期日早晨播放清單、專注播放清單等。

播放清單團隊將這些不斷改進的合輯,以數據產品的形式分享給其他團隊。數據即為產品,是一個成熟的概念,指的是依照Daff既定的數據共享標準而分享的數據,全域數據發現工具可以自動存取數據產品。它們共享並且確保擁有相同的服務水準目標(service level objectives,SLO),例如每個播放清單的更新頻率、準確率和及時性,並擁有最新且易於理解的說明書。簡單來說,數據產品是具有正確訪問權限的使用者所能獲得的高品質數據,並且容易理解、好上手。

播放器領域團隊則聚焦在不同播放器如手機、桌機和汽車等的使用者介面,這是播放清單數據產品中最主要的使用者之一;他們不斷消化最新和最棒的播放清單,並將此呈現給聽眾。

播放清單團隊計畫要更新他們的模型,為不同的體育活動推薦新的播放清單,例如跑步播放清單、自行車播放清單等。他們需要找到一些現存資料,包括聽眾在運動時喜歡或播放的音樂資訊。

首先,播放清單團隊進入網格的探索入口,並且搜尋所有可能跟體育活動相關的數據產品。藉由探索機制,他們發現合作夥伴領域中有一些跟運動相關的數據,這個探索工具能讓團隊自動存取文件、範例程式以及更多與數據產品相關的資訊。他們自動的請求存取權限,以取得合作夥伴數據產品使用權並且檢視樣本資料集。雖然他們發現了一些涉及聯合成員(合作健身平台成員的聽眾)的有用數據,但沒有找到任何他們在跑步、騎自行車或做瑜伽時,在這些平台上聆聽或喜歡的音樂資訊。

播放清單團隊跟合作夥伴數據產品擁有者取得聯繫。每個領域都會有一個專門的產品擁有者,他會專注於該領域所共享的數據。藉由直接對話告知合作夥伴團隊,他們需要存取健身平台在不同活動中播放的音樂曲目,以及平台成員喜歡的音樂曲目。這段對話能重新建立合作夥伴播放清單數據產品的優先順序。

合作夥伴業務團隊的宗旨,是藉由跟健身平台等合作平台的無縫整合以及音樂分享,為聽眾創造更好的體驗。建立合作夥伴播放清單數據產品跟他們的業務目標一致。合作夥伴團隊是最適合建立這些數據產品的團隊,他們跟合作夥伴平台有最密切的合作,而且也了解他們的整合API,以及這些API的生命週期。這些API會直接為合作夥伴播放清單數據產品提供數據。

鑑於Daff在過去3年建立的自我服務數據基礎設施和平台能力,合作夥伴團隊能夠簡單建立起新的數據產品。他們跟其中一個廣受歡迎的自行車和健身合作夥伴合作,使用他們的API來存取其成員播放過和喜歡的曲目。

合作夥伴團隊使用平台數據產品的生命週期管理工具來轉換邏輯,將這些數據呈現為多種模式的數據產品,最初是使用增量檔案的近即時快照。為了更容易地整合合作夥伴播放清單跟其他數據產品,轉換程式著重於將音樂曲目ID轉換為Daff在所有數據產品中使用的全域曲目ID系統。不過幾個小時,他們就建立新的合作夥伴播放清單數據產品,並將其部署到網格中,同時也提供給播放清單團隊,讓他們的實驗能夠持續下去。

在這個再平凡不過的場景中,隱含一些數據網格原則的基本原理:數據的去中心化領域所有權,藉此消除數據使用者和數據提供者之間的差距。在這種情況下,讓播放清單領域能夠直接與合作夥伴領域共同工作,而每個團隊都有責任長期提供數據、播放清單和合作夥伴播放清單。(本文摘錄整理自《數據網格》序章,碁峰資訊提供)

圖片來源_碁峰資訊

 書名  數據網格:大規模提供資料驅動價值(Data Mesh )

Zhamak Dehghani/著;吳曜撰/譯

碁峰資訊出版

定價:680元

 作者簡介 

Zhamak Dehghani是Thoughtworks的技術總監,專注於企業分散式系統與資料架構。她是Thoughtworks等多個技術顧問委員會的成員。Zhamak致力於將所有的事物去中心化,包括架構、數據和最終權力。她也是數據網格的創始人。圖片來源_Thoughtworks

熱門新聞

Advertisement