圖片來源: 

網站截圖

Kimono是個雲端爬蟲服務,並能以API的形式提供抓取的資料,與其說彈指之間寫出用來自動蒐集網路各式各樣資訊的爬蟲程式,倒不如說是「設定」比較貼切。Kimono是由Ryan Rowe和Pratap Ranade共同創辦的,他們兩人在哥倫比亞大學念博士班的時候認識,雖然最後兩人都沒有完成博士學位,但卻成為好朋友,之後Ryan Rowe去麥肯錫顧問公司工作,Pratap Ranade則到上海的設計公司上班,兩人見面時會自己舉辦黑客松寫程式當作娛樂,而Kimono正是他們想要做一個可以查訊下班飛機上的電影清單App,所衍伸出來的應用,因為他們遇到了棘手又乏味的問題,就是需要寫一隻爬蟲程式,定時的抓取網頁上的資訊。

Pratap Ranade表示,Kimono最主要解決兩個問題,第一、幫助開發者方便取得資料,他表示,網路上有無數的資料,但因為多數為非結構化的形式,導致開發者難取用。第二、對於不少人來說,他們具有分析資料的能力,卻欠缺取得資料的方法,或許他們不知道爬蟲程式可以為他們帶來方便,或是不知道該怎麼用程式寫出爬蟲程式,而Kimono可以幫助簡化這件事,促進資料科學的應用。

使用Kimono爬蟲服務比起自己刻爬蟲程式簡單許多,完全不需要寫程式,也不需要會正規表示式,只要在想要抓取資料的網頁,使用Kimono的Chrome外掛程式,或是點選Kimono提供的書籤工具,便會進入Kimono的標記模式,用滑鼠點按想抓取的資料,該資料便會以黃底標記,並判斷在網頁中有無類似結構的資料,並一併標記出來,標記旁會有「✕」以及「✓」的符號,供使用者選擇是否留下,最後點選完成就大功告成了。

Kimono的工具可以很直覺的選取想抓取的資料。

 

Kimono後臺介面能管理抓取的資料。

 

使用者可以選擇手動抑或是固定時間抓取資料,Kimono的API提供各種程式語言的版本,開發者只要複製程式碼就能使用了。另外Kimono也提供CSV、RSS等基本的資料儲存格式供下載。

Kimono的共同創辦人Pratap Ranade說:「我們的目標就是要API化網際網路,讓整個網路都成為機器可讀」,或許Kimono是達成Tim Berners-Lee理想中語意網路的另一個方法,因為兩者個共同目標都是讓網際網路更加機器可讀,以增加資料交換的方便性。Kimono目前還屬測試階段因此服務免費,Pratap Ranade表示,現在最主要還要加強工具的功能以及強健性。


Advertisement

更多 iThome相關內容