AWS開源適用於Amazon S3的檔案客戶端Mountpoint Alpha測試版,Mountpoint以程式語言Rust開發,能將本地檔案系統的API呼叫,轉換成為S3物件的API呼叫,適合用於處理PB級資料,或是跨數千個執行個體的讀取密集資料湖工作負載。

AWS開發Mountpoint的原因,官方解釋,因為部分資料湖用戶使用特定領域的工具,這些工具輸入和輸出皆為本地檔案系統的檔案,而不支援S3物件API。像是開源的Linux基因組學研究工具便需要對本地檔案系統讀取定序資料,又或是機器學習訓練工作管線,也需要在本地檔案系統儲存檢查點檔案。

用戶要將這些應用串接上S3可能是一件複雜的工作,又或是缺乏應用程式的原始碼,因此也無法達成這樣的目標。Mountpoint是開源檔案客戶端,能夠讓Linux應用程式簡單地連接到S3儲存桶,並且使用檔案API存取物件,Mountpoint擅長處理需要平行讀取、生成大量S3資料,且不需要更新既有S3物件的任務。

Mountpoint使用戶能夠將S3儲存桶或是前綴,映射到執行個體的檔案系統命名空間,把儲存桶的內容當作本地檔案一樣取用,對S3進行GET和PUT操作,並且在不需要更改程式碼和擔心效能配置下,就可達到每秒TB級的聚合吞吐量。

不過,Mountpoint畢竟不是通用網路檔案系統,因此存在一些檔案操作限制,目前Alpha測試版還不支援寫入物件,官方提到,未來Mountpoint也只會支援序列寫入新物件。因此需要執行跨執行個體或是用戶協作的共享檔案應用程式,AWS建議使用FSx或是EFS等全託管檔案服務。

當資料湖應用程式不需要使用其他檔案系統檔案讀取大型物件,或是只需要對單一節點寫入物件,則Mountpoint便是可高效能存取S3的好用工具。AWS目前已經釋出Mountpoint Alpha測試版,用戶可以在GitHub上取用程式碼。

熱門新聞

Advertisement