網路資訊/巨量資料浪潮來襲 是商機或「喪機」?

作/道格

企業是否正邁向巨量資料浪潮的顛峰?或者正朝著幻覺破滅的谷底邁進?

貴公司是否找到了巨量資料(Big Data)分析的運用案例?是否嘗試過像Hadoop之類的新平台?如果已經做過這些事,或許意味著已經知道希望從巨量資料中得到些什麼、以及有哪些問題需要解決。

知道自己的需求,代表有機會找出有用的商業資訊,而不只是儲存一大堆無用的資訊。

這裡所探討的技術,包括分散式運算(Distributed computing)、串流處理(Stream processing)、機器學習(Machine learning)、圖像分析(Graph analysis)等,可以增加分析的效能,讓分析更便宜、更容易使用。

[廣告]請繼續往下閱讀...

使用分散式運算與串流處理,公司可以從事過去做不到的大規模、快速分析。例如,銀行可以在1秒以內判斷一位客戶的資料,然後在網站上提供與他個人最相關的廣告。

另外也看到機器學習在複雜分析中發揮作用;例如,Memorial Sloan-Kettering癌症中心正在從事機器學習,以持續監控新的醫學文獻,並藉此提供癌症醫療建議,協助醫師診斷。

而且現在正目睹開放原始碼科技的出現,包括Apache Hadoop和R語言,讓公司可以使用更大、更廣的資料類型,並且用這些東西來解決新的商業分析問題。

舉例來說,共同基金公司American Century正在開發自己的R-based模型,使用圖像分析技術來找出公司之間的關連,就好比臉書(Facebook)可以找出人與人之間的關係一樣;這麼一來,American Century便可以強化自己的財報預測準度。

在這個階段,IT人員對於未來分析市場的願望清單還有一長串。大部分公司仍希望看到經過驗證的分析工具與方法,而不是還在測試階段的計畫。

他們想要簡單、容易上手的SQL或SQL類型分析,不受到限制的查詢能力、批次處理以及非即時處理。資料量不斷成長,而公司想要合理運用的資料來源種類也不斷增加。

在此同時,新創立的分析公司不斷提到Hadoop等巨量資料平台的問題,所以接下來的篇幅將會聚焦在現階段最新、最完整的資料使用方式。

開放原始碼可以解決難題

Apache Hadoop現在幾乎已經是巨量資料的同義詞,這種分散式資料處理架構可以用來打造大量分散式運算應用。Hadoop讓組織可以快速儲存大量不同的資料,無須關連式資料庫要求的所有管理工作。

不過,要在Hadoop上跑分析,目前仍需要更好的實例與技術,因此有待繼續努力。

以目前現有科技,公司可以在MapReduce中設計演算法,使用Hadoop的HBase NoSQL資料庫來擷取資料組,並利用Hive數據資料庫進行類似SQL的查詢。

但早期使用者發現了一些缺失,MapReduce程式很複雜,HBase不穩且不易管理,而Hive不但慢,且進行SQL分析的能力十分有限。

在Hadoop社群中,有越來越多參與者和新創公司正積極改善像是Hive這樣的工具,包括進行MapReduce設計的Apache Pig語言、以及部署機器學習演算法的Apache Mahout計畫。

這些新創公司發現Hadoop使用者很想要開發新的方法。

舉例來說,Opower賣的是可以讓電力公司追蹤其客戶電力使用狀況的系統。Opower使用Hadoop,結合數百萬電力客戶的資料、恆溫裝置、天氣與其它數據。

其中一份報告可以讓客戶知道自己的電力使用狀況,並且與當地相同規模的住家平均做比較。客戶還可以從網路上取得帳單金額預估,並獲得下一期的繳費提醒。

擁有這些資訊的消費者,就可以控制自己的用電量,諸如關掉家裡的恆溫裝置、改成經過設計的恆溫計,或調整成在用電離峰時間才使用。在2007年成立的Opower表示,使用其服務的1,500萬名客戶中,總共減少了2兆瓦電力,省下約2.2億美元。

不過這項服務的資料處理可不容易。就像許多Hadoop使用者一樣,Opower在Java上開發了客製化的MapReduce流程,可以從HBase擷取、處理數據,然後應用到分析模型中。

為了簡化流程,Opower使用WibiData開發的現成軟體來完成HBase分析工作。現任Opower基礎建設工程總監Drew Hylbert曾在雅虎(Yahoo)任職,他離開雅虎後開始投資MapReduce資料處理;他表示,這個軟體可以簡化2個步驟。

他說:「WibiData有助於完成資料更正,而資料更正是我們希望用自己的HBase架構完成的事;而且WibiData可以讓未來需要時能在HBase上增加資料。」

WibiData是支援Hadoop的眾多新創公司之一,由Cloudera創辦人Christophe Bisciglia創立。

WibiData提供Kiji函式庫給HBase架構發展,讓WibiData可以提供免費的開放原始碼軟體。這些函式庫讓大型HBase資料庫的資料儲存與擷取變得更容易。

該公司還提供開放原始碼的分析工具,也就是在HBase上運作的MapReduce模型與工具,並從顧問、企業支援與訓練獲得利潤。

Hylbert表示:「WibiData的想法是可以省略親自開發MapReduce的過程;與其尋找研究工程師與MapReduce工程師來完成開發,不如利用可重複的抽象化過程在多個應用中產生洞察(insight)。」

客戶可以重複使用軟體,不用每次有新的insight需求時就要開發新的MapReduce工作。

Opower還仰賴另一家新創公司Platfora來協助公司完成巨量資料視覺化工作,這又是另一個分析的分支。

Hylbert解釋,WibiData找來工程師研究第一手資料、並建立統計模型,不過其他Opower員工需要「看到數據、畫出圖表,然後用不同方式加以詮釋解讀;Platfora則在Hadoop與HBase上提供我們資料視覺化,並深入探索資訊。」

Opower正要開始部署Platfora;但如果發揮到極致,將可以取代SQL基礎的方法,讓Opower不必從Hadoop擷取資訊、再把資訊移到Infobright資料庫軟體、然後使用Pentaho資料圖像化工具完成分析。

Hylbert表示,Infobright與Pentaho軟體的結合固然「簡單好用」,但他寧可省去把資料從Hadoop移到SQL資料庫的過程。Platfora可以省略這個步驟,因為Platfora是直接在Hadoop上運作。

關鍵字: 網路資訊巨量資料分散式運算串流處理圖像分析原始碼

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ETtoday著作權聲明]

推薦閱讀

扯!國泰投信8檔基金「淨值算錯」 公司祭買貴現金補償3措施

扯!國泰投信8檔基金「淨值算錯」 公司祭買貴現金補償3措施

國泰金(2882)旗下國泰投信爆發罕見缺失,公司向外揭露8檔基金淨值算錯因此要重算,導致投資人可能因此要付出更高價格申購基金,影響期間最長1至7個月不等,國泰投信因此祭出3大補救措施,強調買貴的基金會補償現金,如果買到較便宜的基金,價差也不會追回。

2026-06-17 12:22

7金控大象跳舞!國泰金、富邦金領軍飆新高 高息ETF搶進抬轎

7金控大象跳舞!國泰金、富邦金領軍飆新高 高息ETF搶進抬轎

金控除息日期陸續出爐,加上高股息ETF換股卡位,帶動這一波壽險大型金控股強勁攻勢,今(17)日國泰金(2882)一度跌至盤下立刻急拉而上,上攻到117元,續創金控成立以來新高價位,漲幅逾6%,富邦金(2881)同步創下139元新高,凱基金(2883)、元大金(2885)、永豐金(2890)同步飆新高,台新新光金(2887)刷合併來新高。

2026-06-17 11:20

面板回神!友達發「光」噴漲停 群創、彩晶漲逾半根停板

面板回神!友達發「光」噴漲停 群創、彩晶漲逾半根停板

友達(2409)鎖定CPO光通訊、Micro LED等新事業推動轉型,股價從29.6元高檔拉回測試月線,今(17)日攻勢再起,開低之後直奔26.25元漲停價位,到11點35分成交量突破50萬張,居上市成交量最大個股,漲停委買張數逾6萬張,彩晶(6116)強彈一度攻克18.25元漲停價位。

2026-06-17 11:44

王品股東會通過超額配發16.11元現金股利 股東嗨翻

王品股東會通過超額配發16.11元現金股利 股東嗨翻

王品(2727)今日召開2026年股東常會,會中通過2025年財務報表與盈餘分配案,並順利完成董事改選。董事長陳正輝表示,感謝股東的支持與勉勵,回顧2025年,在王品全體同仁的努力下,繳出亮眼成績單,今年也延續好表現,前5月的合併營收提前突破新台幣百億大關達107億元,經營團隊將繼續努力,共創佳績。

2026-06-17 12:04

大立光挾CPO飆回5千金俱樂部 類股3檔觸漲停

大立光挾CPO飆回5千金俱樂部 類股3檔觸漲停

光電股龍頭大立光(3008)爆出CPO(共同封裝光學)技術領先逾3個世代,今(17)日盤中股價飆漲逾9.26%至5310元,正式攻回5千金俱樂部,類股包括中揚光(6668)、今國光(6209)、先進光(3362)等3檔觸漲停,同步上演慶祝行情。

2026-06-17 10:30

美伊和談、油價摔逾5%!航空股齊嗨 台灣虎航率先漲停

美伊和談、油價摔逾5%!航空股齊嗨 台灣虎航率先漲停

美國和伊朗預計本周五( 19日)正式簽署臨時和平協定,國際油價持續擴大跌幅,每桶報價跌至80美元以下,航空股狂飆齊嗨,台灣虎航率先攻至62元漲停價,長榮航(2618)漲逾8%。

2026-06-17 10:02

台股45K震盪 00929翻紅填息5成

台股45K震盪 00929翻紅填息5成

資產規模1407億元、受益人數40.9萬人復華台灣科技優息(00929)於今(17)日除息,每股配發0.26元,昨(16)日收盤價為30.63元,除息參考價為30.37元,今日股價一度下跌最低來到30.11元,很快回到30.37元盤上,最高來到30.5元,填息比率約5成。

2026-06-17 09:58

祥碩啟動第二個5年轉型計畫 總座:PC受記憶體排擠「聚焦新市場」

祥碩啟動第二個5年轉型計畫 總座:PC受記憶體排擠「聚焦新市場」

祥碩(5269)今日舉行股東會,祥碩2025年財報表現,全年合併營收達新台幣134.15億元,稅後純益54.26億元,每股盈餘72.7元,股東會通過配發新台幣45元現金股利。祥碩總經理林哲偉表示,今年營運受到記憶體漲價及CPU供需失衡影響,上半年仍可維持成長,但下半年主機板產品恐遭排擠,整體營運面臨挑戰,因此公司將啟動第二個五年轉型計畫,聚焦邊緣AI、機器人、伺服器及車用等新市場。

2026-06-17 11:56

台積電攜手Amkor簽10年合作 強化美國先進封裝供應鏈

台積電攜手Amkor簽10年合作 強化美國先進封裝供應鏈

根據外媒Businesswire報導,晶圓代工龍頭台積電(2330)與全球半導體封測大廠Amkor Technology今(11)日共同宣布,雙方簽署為期10年的合作協議,將在美國亞利桑那州深化先進半導體封裝合作,攜手擴大美國先進封裝與測試產能,進一步強化當地半導體供應鏈韌性,並加速AI及高效能運算(HPC)等市場發展。

2026-06-17 10:15

被動元件MLCC漲價!華強北現貨市場升溫 法人:7月掀3階段行情

被動元件MLCC漲價!華強北現貨市場升溫 法人:7月掀3階段行情

AI供應鏈缺料議題持續延燒,市場關注焦點正從GPU、記憶體擴散至被動元件。鈞弘資本執行長沈萬鈞分析,近期華強北現貨市場已開始出現MLCC漲價訊號,情況與先前記憶體行情啟動初期相似,後續不排除出現供給重新配置與中低階產品追價效應。

2026-06-17 09:40

最夯影音

更多