網路資訊/巨量資料浪潮來襲 是商機或「喪機」?

作/道格

企業是否正邁向巨量資料浪潮的顛峰?或者正朝著幻覺破滅的谷底邁進?

貴公司是否找到了巨量資料(Big Data)分析的運用案例?是否嘗試過像Hadoop之類的新平台?如果已經做過這些事,或許意味著已經知道希望從巨量資料中得到些什麼、以及有哪些問題需要解決。

知道自己的需求,代表有機會找出有用的商業資訊,而不只是儲存一大堆無用的資訊。

這裡所探討的技術,包括分散式運算(Distributed computing)、串流處理(Stream processing)、機器學習(Machine learning)、圖像分析(Graph analysis)等,可以增加分析的效能,讓分析更便宜、更容易使用。

[廣告]請繼續往下閱讀...

使用分散式運算與串流處理,公司可以從事過去做不到的大規模、快速分析。例如,銀行可以在1秒以內判斷一位客戶的資料,然後在網站上提供與他個人最相關的廣告。

另外也看到機器學習在複雜分析中發揮作用;例如,Memorial Sloan-Kettering癌症中心正在從事機器學習,以持續監控新的醫學文獻,並藉此提供癌症醫療建議,協助醫師診斷。

而且現在正目睹開放原始碼科技的出現,包括Apache Hadoop和R語言,讓公司可以使用更大、更廣的資料類型,並且用這些東西來解決新的商業分析問題。

舉例來說,共同基金公司American Century正在開發自己的R-based模型,使用圖像分析技術來找出公司之間的關連,就好比臉書(Facebook)可以找出人與人之間的關係一樣;這麼一來,American Century便可以強化自己的財報預測準度。

在這個階段,IT人員對於未來分析市場的願望清單還有一長串。大部分公司仍希望看到經過驗證的分析工具與方法,而不是還在測試階段的計畫。

他們想要簡單、容易上手的SQL或SQL類型分析,不受到限制的查詢能力、批次處理以及非即時處理。資料量不斷成長,而公司想要合理運用的資料來源種類也不斷增加。

在此同時,新創立的分析公司不斷提到Hadoop等巨量資料平台的問題,所以接下來的篇幅將會聚焦在現階段最新、最完整的資料使用方式。

開放原始碼可以解決難題

Apache Hadoop現在幾乎已經是巨量資料的同義詞,這種分散式資料處理架構可以用來打造大量分散式運算應用。Hadoop讓組織可以快速儲存大量不同的資料,無須關連式資料庫要求的所有管理工作。

不過,要在Hadoop上跑分析,目前仍需要更好的實例與技術,因此有待繼續努力。

以目前現有科技,公司可以在MapReduce中設計演算法,使用Hadoop的HBase NoSQL資料庫來擷取資料組,並利用Hive數據資料庫進行類似SQL的查詢。

但早期使用者發現了一些缺失,MapReduce程式很複雜,HBase不穩且不易管理,而Hive不但慢,且進行SQL分析的能力十分有限。

在Hadoop社群中,有越來越多參與者和新創公司正積極改善像是Hive這樣的工具,包括進行MapReduce設計的Apache Pig語言、以及部署機器學習演算法的Apache Mahout計畫。

這些新創公司發現Hadoop使用者很想要開發新的方法。

舉例來說,Opower賣的是可以讓電力公司追蹤其客戶電力使用狀況的系統。Opower使用Hadoop,結合數百萬電力客戶的資料、恆溫裝置、天氣與其它數據。

其中一份報告可以讓客戶知道自己的電力使用狀況,並且與當地相同規模的住家平均做比較。客戶還可以從網路上取得帳單金額預估,並獲得下一期的繳費提醒。

擁有這些資訊的消費者,就可以控制自己的用電量,諸如關掉家裡的恆溫裝置、改成經過設計的恆溫計,或調整成在用電離峰時間才使用。在2007年成立的Opower表示,使用其服務的1,500萬名客戶中,總共減少了2兆瓦電力,省下約2.2億美元。

不過這項服務的資料處理可不容易。就像許多Hadoop使用者一樣,Opower在Java上開發了客製化的MapReduce流程,可以從HBase擷取、處理數據,然後應用到分析模型中。

為了簡化流程,Opower使用WibiData開發的現成軟體來完成HBase分析工作。現任Opower基礎建設工程總監Drew Hylbert曾在雅虎(Yahoo)任職,他離開雅虎後開始投資MapReduce資料處理;他表示,這個軟體可以簡化2個步驟。

他說:「WibiData有助於完成資料更正,而資料更正是我們希望用自己的HBase架構完成的事;而且WibiData可以讓未來需要時能在HBase上增加資料。」

WibiData是支援Hadoop的眾多新創公司之一,由Cloudera創辦人Christophe Bisciglia創立。

WibiData提供Kiji函式庫給HBase架構發展,讓WibiData可以提供免費的開放原始碼軟體。這些函式庫讓大型HBase資料庫的資料儲存與擷取變得更容易。

該公司還提供開放原始碼的分析工具,也就是在HBase上運作的MapReduce模型與工具,並從顧問、企業支援與訓練獲得利潤。

Hylbert表示:「WibiData的想法是可以省略親自開發MapReduce的過程;與其尋找研究工程師與MapReduce工程師來完成開發,不如利用可重複的抽象化過程在多個應用中產生洞察(insight)。」

客戶可以重複使用軟體,不用每次有新的insight需求時就要開發新的MapReduce工作。

Opower還仰賴另一家新創公司Platfora來協助公司完成巨量資料視覺化工作,這又是另一個分析的分支。

Hylbert解釋,WibiData找來工程師研究第一手資料、並建立統計模型,不過其他Opower員工需要「看到數據、畫出圖表,然後用不同方式加以詮釋解讀;Platfora則在Hadoop與HBase上提供我們資料視覺化,並深入探索資訊。」

Opower正要開始部署Platfora;但如果發揮到極致,將可以取代SQL基礎的方法,讓Opower不必從Hadoop擷取資訊、再把資訊移到Infobright資料庫軟體、然後使用Pentaho資料圖像化工具完成分析。

Hylbert表示,Infobright與Pentaho軟體的結合固然「簡單好用」,但他寧可省去把資料從Hadoop移到SQL資料庫的過程。Platfora可以省略這個步驟,因為Platfora是直接在Hadoop上運作。

關鍵字: 網路資訊巨量資料分散式運算串流處理圖像分析原始碼

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ETtoday著作權聲明]

推薦閱讀

4檔月月配債券ETF配息開獎一表看 00937B續配0.084元

4檔月月配債券ETF配息開獎一表看 00937B續配0.084元

五月將除息的ETF陸續公告配息資訊,以債券ETF來看,目前採取月配機制的產品共計有6檔,排除台新美A公司債20+ (00942B)、 凱基美國非投等債(00945B)兩檔新募集、還未配息的產品來看,另外4檔產品,包括群益ESG投等債20+(00937B)、國泰10Y+金融債(00933B)、中信高評級公司債(00772B)、中信優先金融債(00773B)都已公告此次配息金額, 若想參與除息,此4檔最後買進日都是5月16日。

2024-05-03 09:42

陳年老股出現井噴行情 謝金河:改變台灣力量逐漸加大

陳年老股出現井噴行情 謝金河:改變台灣力量逐漸加大

財信傳媒董事長謝金河今日在臉書以「改變台灣的力量』為題撰文,表示台灣經濟成長率表現佳,除了AI帶動的資通訊產業奔馳,還有去年同期的基期太低,更表示在資金回流下,改變台灣的力量逐漸加大,現在站在兩萬點,表現平穩,很多躺在地上卅幾年的陳年老股出現井噴般的行情,尤其是營建股,像國泰建設突然大漲,這是大家都沒有想到的事。

2024-05-03 10:05

抽中有望賺近4萬元 攸泰科技6日起開放申購

抽中有望賺近4萬元 攸泰科技6日起開放申購

新股抽籤紅包別錯過,攸泰科技(6928)將於5月6日至5月8日辦理為期三天的公開申購,申購股數計1,980張,5月10日將公開抽籤,並預計於5月16日掛牌上市,本次辦理公開申購價格為65元。若以2日成交均價103.6元計算,粗估中籤潛在獲利將近3.9萬元。

2024-05-03 06:00

美股複委託電子下單割喉戰! 一表看5券商手續費讓利助攻

美股複委託電子下單割喉戰! 一表看5券商手續費讓利助攻

美股上衝下洗,證券海外複委託電子交易手續費割喉戰持續上演。繼龍頭元大證延長電子下單定期定額手續費0.3%均一價、富邦證推個股免低收以後,國泰證再祭出複委託買美股全面免低消、美股ETF均一價手續費殺至3美元的策略,拉攏熱愛美股的投資人。

2024-05-03 00:03

綜所稅扶養親屬看過來!4情境規定大不同 直接列報條件曝光

綜所稅扶養親屬看過來!4情境規定大不同 直接列報條件曝光

綜合所得稅申報剛剛起跑,基層稅務人員幽默表示「每年到這時候孝順父母、兄友弟恭和慈祥的爸媽都會跑出來」因為扶養親屬,可以得到免稅抵扣名額,「養愈多、省愈多」且抵扣稅額的效果非常直接,特別是適用稅率在累進稅率邊緣的納稅義務人,更加可以紮實享受人多好辦事的情懷,不過,財政部也特別提醒申報扶養有4種不同情境,規定差異也很大,民眾報稅最好看仔細。

2024-05-03 06:00

投資人憂心波克夏崩跌 93歲股神巴菲特自曝「我死了股價會漲」

投資人憂心波克夏崩跌 93歲股神巴菲特自曝「我死了股價會漲」

「股神」巴菲特(Warren Buffett)是有史以來最成功的投資者之一,儘管已 93 歲高齡,依然精神奕奕,不過投資人仍擔憂在他過世後所執掌波克夏(Berkshire Hathaway)崩跌,但巴菲特甚說,「如果今晚我死了,明天波克夏的股價會上漲。」

2024-05-03 10:47

運價高掛、馬士基調高財測為何股價卻下跌 市場變數太多

運價高掛、馬士基調高財測為何股價卻下跌 市場變數太多

貨櫃船運市場五月大漲價成功,馬士基昨(2)日調高全年獲利預測,但是國內外貨櫃航運股股價卻普遍下跌,昨(3)晚航運界LINE群組討論原由,有人認為是股價已經漲多;有人認為現貨市場運價雖然高漲,船公司簽下的長約運價卻偏低;也有人指出埃及斡旋的加薩停火協議有望解除紅海危機是主要影響因素。

2024-05-03 07:00

90歲爸爸去年往生!2子爭報扶養 國稅局曝「長年同住」哥哥勝

90歲爸爸去年往生!2子爭報扶養 國稅局曝「長年同住」哥哥勝

高雄國稅局指出,扶養親屬實務上常見「重複申報」的案例,特別是有實際扶養事實之數人在同1年度內重複列報扶養直系尊親屬免稅額時,應由親屬間協議其中1人申報扶養,數人亦可協議每年輪流申報免稅額,如協議不成,則依各申報人提出實際扶養事實證據及民法規定扶養順位,核實認定由主要扶養人列報。

2024-05-03 06:05

台積電漲8元收780 台股漲108點站回20300

台積電漲8元收780 台股漲108點站回20300

受到美國股市上揚表現激勵,台股早盤也有不錯表現,今(3日)開高,一度大漲近300點,惟漲勢收斂,終場漲108點來到20330.32點,漲幅0.53%,成交量4049.84億元。

2024-05-03 13:40

謝金河/今年首季經濟成長率創新高 人和錢回流台灣

謝金河/今年首季經濟成長率創新高 人和錢回流台灣

2024年首季經濟成長率是6.51%,這是2021年第二季以來的10季最高,這個數字很漂亮,除了AI帶動的資通訊產業奔馳,還有一個很重要的原因,那就是去年同期的基期太低。

2024-05-03 13:02

讀者迴響