【文/鄭威宏】
凡走過必留下痕跡,同時也留下大量商機,在美國,海量資料應用已撲天蓋地而來,大到打總統選戰,小到擠牛奶,未來公司要在產業站穩腳步,海量資料處理已從「選配到標配」,預估產業每年以六成的速度高速增長。
著名新月派現代詩人徐志摩留下膾炙人口的新詩︱再別康橋,新詩中「悄悄的我走了,正如我悄悄的來;我揮一揮衣袖,不帶走一片雲彩」,營造出那番寂然無聲沉靜味道。如果回到現代社會,可能這種飄逸感就打上不小折扣。
當今,作詩寫稿也已不再使用紙張,人類的行為模式開始由實體轉向虛擬(電腦或雲端硬碟),也因為如此,不帶走一片雲彩也只好改成「凡走過必留下痕跡」。
到處都是走過的痕跡
事實上,凡走過必留下痕跡,這其實就是BIG DATA(海量資料)時代來臨的一項特徵。
近年來,隨著3G智慧型手機的普及(4G隨侍在後)、電子商務的盛行、社群網路的大行其道、雲端伺服器應用增加等因素使然,一來增加消費者對於網路世界的黏著度,二來消費者的使用頻率及高品質檔案傳輸環境成熟,大幅提高網路上的資料傳輸量。
據IBM一○年底統計,亞馬遜每秒的訂單數量達七二.九筆、每家戶每天的資料使用量三七五MB、全球使用者在臉書每月的使用已達七○○○億分鐘以上、谷歌每天處理的資料量達二四PB(1024 Trillionbyte)、移動數據每日的流量達一.三EB(一○二四PB)等,這些都是使用者留下的痕跡。
但在過去,由於處理技術上的不足,如此大批的資料庫卻苦無用武之地,最後因使用頻率太低,或是儲存成本壓力,只好捨去。
不過,○三至○四年間,由谷歌發表兩篇論文「The Google File System、MapReduce : Simplified Data Processing on Large Cluster」開始,敘述谷歌如何利用MapReduce演算法來計算查詢索引,讓使用者能在最短時間從網際網路上取得自已所需查詢的資料,讓海量資料處理開始浮上檯面,也是海量資料最早的應用之一。
海量資料處理能力翻數倍
爾後,Doug Cutting(又被稱為Hadoop之父)參考上述谷歌二篇論文為藍圖,演變成一套如何儲存、處理、分析TB至PB等級的資料處理方法︱Hadoop。
Hadoop是一個免費且開放原始碼的分散式檔案系統,可以用於各種不同電腦之間,總和成為單一電腦系統進行平行運算,不僅全球最快的運算系統,也是當今海量資料處理最主要的基礎架構,就如同一般消費者筆電中的Windows作業系統。
而且,Hadoop更可怕的不只是能處理一TB以上的海量型資料,此外,過去的資料處理領域多為局限在結構化資料(指資料經過分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構)。
但Hadoop還能加入非結構化資料的分析能力,像是log記錄檔、照片、聲音、通訊記錄或是電子郵件等,過去不易、不被且昂貴的儲存、處理、分析的資料,現在都得到解決。
過去而言,結構化資料約占資料量的一五%,但半非結構化資料卻高達八五%,也就是說,有了Hadoop的出現,不但能讓現有的資料處理能力以倍數增加,而且,這種半 非結構化的資料就像一個新發現的礦山,處處充滿商機,更是讓海量資料威力發揮得更淋漓盡致。
比方來說,如果消費者要去實體商店消費,服務認真一點的店家會記錄消費者的最終消費紀錄,未來有新品,或是店家以直覺的提供相關產品的試用等,但消費者走向虛擬店家(電子商務)後,不僅是最終的消費紀錄。
像是曾在網頁上點擊過什麼樣的產品、停留時間、購物順序等都會被記錄下來,不僅能提供給下一個同性質的客群添購上的推薦參考,而且,別人的消費選擇也會再次回饋,以便同一位消費者再次光臨。
近期最夯的例子是美國最大線上影片出租服務公司Netflix(NFLX.US),在使用海量資料分析後,網站推薦給客戶的影片中,十部有七.五部會被消費者採用,大大減少行銷成本外,還增加Netflix與客戶間的黏著度。
此外,更神奇的是,由於Netflix已先將影片的導演、明星組合、影片劇情元素等資料經由演算及分析過,當使用者看完影片,要對影片下評價前,Netflix已預測出使用者會給怎樣的評等,充分滿足客戶需求,難怪Netflix股價從去年中的五○美元,漲至目前超過二五○美金。
租片、牛乳、總統選戰
而且,海量資料不僅可應用在虛擬經濟上,實體經濟同樣受惠。先前彭博新聞曾報導,一家牛乳農場將擠奶機器置上資料儲存系統,記錄每頭乳牛長期分泌牛乳的資料,並找到最佳化的擠奶策略;並且,透過這些非結構資料,還能知道乳牛是否健康,是否感染乳腺炎,大大增加採乳量及農場運作效率。
另外,去年美國總統大選時,歐巴馬競選團隊也使用海量資料來進行選戰分析,發現選民喜歡競賽、小型宴會及名人加持等元素,而且,由於海量資料的取得及解讀,可以準確了解某族群或是某地區對於歐巴馬的支持度,因而可以採取相關的應對措施,成為歐巴馬贏得選戰的秘密武器。
不論是虛擬或是實體的世界,海量資料的應用已經是越來越普及,不再是谷歌、雅虎搜尋引擎業者的專利。
近年來,已明確使用海量資料分析的國際級知名企業,像是臉書、IBM、紐約時報、豐田、三星、微軟等都已先後採用,可預見的,未來行銷及營運策略面向的針對性將大為不同,具有分析及使用海量資料的企業,相較之下競爭力勢必大幅提升,也讓企業提高架設海量資料平台的意願。
因此,可以預見海量資料市場勢必將快速擴大,根據Wikibon研調資料指出,預估在二○一六年底時,全球海量資料處理市場將成長至五三四億美元,較去年底時,市場整整成長超過十倍,換算成年複合成長率高達五九.九%,可說是超快速成長的市場,一點也不遜於雲端市場的成長速度。(全文未完)
全文詳情及圖表請見《先探投資週刊》有更多精彩當期內文轉載
讀者迴響