文摘:別被大數(shù)據(jù)迷住了眼睛
出處:中國計算機報 作者:記者 程彥博
不消說,大數(shù)據(jù)是現(xiàn)在IT領(lǐng)域最熱的詞匯,而且,它的熱度已經(jīng)超出了IT領(lǐng)域。
大數(shù)據(jù),將改變企業(yè)的營銷方式,精確分析客戶行為;將改變企業(yè)的運營管理方式,輔助企業(yè)決策,預測風險,提升效率……
且慢。在為大數(shù)據(jù)樹碑立傳之前,需要先考察一下大數(shù)據(jù)所謂何物。
IT領(lǐng)域從來都不缺概念,無論是3V還是4V的大數(shù)據(jù)屬性,新概念一出,就會有人想當然地、在沒有經(jīng)過深入的思考和考證之前,表現(xiàn)出對新概念的認同。
不可否認,移動互聯(lián)網(wǎng)、社交網(wǎng)絡、物聯(lián)網(wǎng)讓人類社會的數(shù)據(jù)量大幅增長,然而,這就是大數(shù)據(jù)嗎?在大數(shù)據(jù)的概念出現(xiàn)之前,就沒有客戶分析,沒有輔助決策、風險預測嗎?在大數(shù)據(jù)的概念出現(xiàn)之前,相對于我們的數(shù)據(jù)處理和分析能力,我們所擁有的數(shù)據(jù)就是“小數(shù)據(jù)”嗎?
顯然,答案是否定的。
數(shù)據(jù)挖掘和數(shù)據(jù)分析并不是新的學科,我們在這一領(lǐng)域擁有很多成熟的技術(shù)。筆者以為,今天所講的大數(shù)據(jù),正是對數(shù)據(jù)挖掘和分析的不斷完善和提高,將更多的非結(jié)構(gòu)化、半結(jié)構(gòu)化和流數(shù)據(jù)引入數(shù)據(jù)挖掘和分析的領(lǐng)域,而不是另起爐灶,并為其賦予一個似是而非、含混不清的名詞——大數(shù)據(jù)。
大數(shù)據(jù)能夠被熱烈地討論,是因為其在精神層面上滿足了人們對未知事物的好奇心,在物質(zhì)層面上有Hadoop、NoSQL這樣實實在在的技術(shù)作為支持。實際上,如果能夠厘清大數(shù)據(jù)的概念,把大數(shù)據(jù)定位為對傳統(tǒng)數(shù)據(jù)挖掘和分析的提升,那么就可以很容易地認識到,Hadoop、NoSQL并不是大數(shù)據(jù)的全部。
Teradata的CTO寶立明就認為,Hadoop是一個非常好的、價格低廉的非結(jié)構(gòu)化數(shù)據(jù)存儲和管理工具。然而就像任何事情都有兩面性一樣,Hadoop在一些數(shù)據(jù)結(jié)構(gòu)穩(wěn)定、需要進行整合分析的場景中并不適用,或者說有其他更好的方式,并且Hadoop的開源特性會帶來更高的部署成本。
歸根結(jié)底,我們不應該被大數(shù)據(jù)風暴迷了眼睛。我們討論大數(shù)據(jù),依然是希望通過對大數(shù)據(jù)的挖掘和分析來發(fā)現(xiàn)數(shù)據(jù)的價值。要最終挖掘出數(shù)據(jù)價值,既要運用新的技術(shù),也不能拋棄傳統(tǒng)的數(shù)據(jù)挖掘和分析的技術(shù)與方法,不要對新技術(shù)盲目崇拜或者盲目排斥,而應該對其進行評估,以最優(yōu)的方式將新技術(shù)與傳統(tǒng)方式結(jié)合起來,這樣才能最大限度地獲得數(shù)據(jù)的價值。
就像寶立明說的那樣,要盡量擯棄炒作給大數(shù)據(jù)帶來的影響,讓大數(shù)據(jù)回到正確的軌道上。
(責任編輯:孫悅)