機器學習的應用正夯,Splunk在去年9月推出的6.5改版,也針對這部份增加自定的功能,同時,也在資料分析、準備等用途,提供新的使用者介面。

提供新的機器學習分析功能

從產品實際的功能搭配來看,Splunk Enterprise 6.5開始提供機器學習工具集(Machine Learning Toolkit),當中將包含豐富的指令與引導式的工作區,以延伸Splunk平臺的功能,而且希望能夠藉此為資料分析人員與資料科學家,提供引導式的建模環境,協助他們以簡便的方式來建立自定的機器學模型,以便用於IT管理、資訊安全與商務應用上。

在這之前,Splunk Enterprise提供的是機器學習的指令,例如異常偵測、離群值(outlier)、預測與群集,操作者不需具備機器學習的專長,就能運用固定的演算法來完成相關工作。而現在有了Machine Learning Toolkit,你可以基於所選擇的演算法,建立自己特製的分析作業,並且使其能夠進行運算,不過,相對而言,使用這套工具集的資料分析團隊,必須了解統計學與Splunk系統。

目前Machine Learning Toolkit包含幾個部分:輔助工具(Assistants)、應用範例、Splunk機器學習指令、Python科學運算程式庫。

在其中的輔助工具裡面,Splunk提供引導式的建模功能,以及通用的測試與部署機制,分析人員可以從25種常用的演算法當中,挑選適合的項目,而且系統也會透過模型的建立、測試、部署來引導操作,以便進行數值的預報、欄位的預測,以及界外值的偵測。

Machine Learning Toolkit這套工具集提供的應用範例,主要針對典型的IT管理、資訊安全、業務應用、物聯網等應用情境,提供互動式的操作範例;至於Splunk在這裡所提供的機器學習指令,則是新增了適應(fit)、測試,以及可操作的資料模型;而在Python科學運算程式庫裡面,Splunk則是提供了300種以上的開放原始碼演算法。

降低進行資料準備與分析作業的複雜度

除了提供可自定的機器學習分析環境,Splunk Enterprise 6.5也簡化了資料準備作業,並且將資料分析的作業,擴增到讓更多人可以執行的程度,例如提供新的操作介面,以及資料表檢視頁面,可供專家與臨時的人員使用。

舉例來說,新版提供的資料集(dataset)類型,不只是既有的資料模型(Data Models)、資訊查詢(Lookups),還增加了資料表形式的資料集(Table dataset),分析人員可運用這種資料集,直接建立表格形式的資料檢視頁面,更便於一般使用者瀏覽與操作,而不需透過Splunk的搜尋處理語言(SPL)來產生,因此,企業也將更多、較新的資料分析的工作,交給新進人員來執行。

在Splunk的圖形使用介面下,使用者能夠操作資料的過濾、內容強化與彙整,針對他們本身的需求或供給他人察看的目的,建立豐富的資料呈現頁面,以便增進工作效率。同時,這裡的摘要檢視、資料統計,以及易於編輯的資料內容,也能協助企業的所有人員進行資料分析,並且還提供直接連結至樞紐分析功能的機制,方便建立圖形化分析報告。

提升整合Hadoop的程度,減少資料儲存所需空間

對於大數據資料儲存空間的縮減,也是Splunk Enterprise 6.5強調的特色之一。在先前推出的6.4版當中,管理者能針對Splunk保存的資料當中的系統最佳化檔案(TSIDX),移除部分內容,以節省儲存空間;而在6.5版,Splunk新增可免費選用的功能Hadoop Data Roll,企業若運用這項機制,即能將Splunk裡面存取頻率較低的老舊資料,遷移到自行架設或雲端服務上的Hadoop大數據環境,如此一來,將可大大精簡Splunk所需的儲存空間(最高節省到8成)。

此外,若搭配Splunk Analytics for Hadoop的選購附加功能,使用者也能針對已轉移到Hadoop環境的歷史資料,進行全文檢索,無損Splunk應有的搜尋機制。

產品資訊

Splunk Enterprise 6.5
●原廠:Splunk
●建議售價:依據每日索引資料量,永久授權每GB為6,750美元起,年度維護費用另計;或可採包含維護費用的年度授權計價,每GB為2,700美元起
●作業系統需求:Windows Server 2012 - 2012 R2、Linux 2.6/3.x
●伺服器硬體需求:2顆6核心2GHz、12GB記憶體、硬碟備援RAID 0或0+1

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容