什么是海量數(shù)據(jù)?海量數(shù)據(jù)還可以稱為大數(shù)據(jù)。對于大數(shù)據(jù)(Big data)研究機構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。其特色在于可對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但必須依托云計算的分布式處理、分布式數(shù)據(jù)庫以及云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce –樣的框架來向數(shù)十、數(shù)百甚至數(shù)千臺計算機分配工作。
1.大數(shù)據(jù)的特點
相比傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,大數(shù)據(jù)分析具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點?!队嬎銠C學(xué)報》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當(dāng)前的主流實現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹,對未來研究做了展望。
大數(shù)據(jù)的特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別躍升到PB級別。第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第三,處理速度快。1s定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(數(shù)據(jù)價值大)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。
2.大數(shù)據(jù)的用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
3.大數(shù)據(jù)的存儲
大數(shù)據(jù)最核心的價值就是在于對海量數(shù)據(jù)進行存儲和分析。與現(xiàn)有的其他技術(shù)相比,大數(shù)據(jù)的“廉價”“迅速”“優(yōu)化”這三方面的綜合成本是最優(yōu)的。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理( MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
分布式存儲系統(tǒng)是將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲服務(wù)器存放所有數(shù)據(jù),存儲服務(wù)器成為系統(tǒng)性能的瓶頸(也是可靠性和安全性的焦點),不能滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔(dān)存儲負荷,利用位置服務(wù)器定位存儲信息,不僅提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。
4. 大數(shù)據(jù)的意義
大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率、多樣化的信息資產(chǎn)。
2013年5月10日,阿里巴巴集團董事局主席馬云在淘寶十周年晚會上說,“大家還沒搞清PC時代的時候,移動互聯(lián)網(wǎng)來了,還沒搞清移動互聯(lián)網(wǎng)的時候,大數(shù)據(jù)時代來了”。
大數(shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過程、企業(yè)和產(chǎn)業(yè),甚至改變著競爭本身的性質(zhì)。把信息技術(shù)看作輔助或服務(wù)性的工具已經(jīng)成為過時的觀念,管理者應(yīng)該認識到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來創(chuàng)造有力而持久的競爭優(yōu)勢。毋庸置疑的是,信息技術(shù)正在改變著人們習(xí)以為常的經(jīng)營之道,一場關(guān)系到企業(yè)生死存亡的技術(shù)革命已經(jīng)到來。
借著大數(shù)據(jù)時代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動的軟件,主要用于為工程建設(shè)節(jié)約資源提高效率,在這個過程里,可以為世界節(jié)約40%的能源。拋開這個軟件的前景,從微軟團隊致力于研究開始,可以看到他們的目標(biāo)不僅是為了節(jié)約能源,還更加關(guān)注智能化運營。通過跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來的超大量數(shù)據(jù),捕捉如何杜絕能源浪費?!敖o我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界。”微軟史密斯這樣說。而智能建筑正是他的團隊所專注的事情。
隨著全球范圍內(nèi)個人計算機、智能手機等設(shè)備的普及和新興市場內(nèi)不斷增長的互聯(lián)網(wǎng)訪問量,以及監(jiān)控攝像機或智能電表等設(shè)備產(chǎn)生的數(shù)據(jù)暴增,使數(shù)字宇宙的規(guī)模在2012年到2013年兩年間翻了一番,達到驚人的2.8ZB。IDC預(yù)計,到2020年,數(shù)字宇宙規(guī)模將超出預(yù)期,達到40ZB。
40ZB究竟是個什么樣的概念呢?地球上所有海灘上的沙粒加在一起估計有七萬零五億億顆。40ZB相當(dāng)于地球上所有海灘上的沙粒數(shù)量的57倍。也就是說,到2020年,數(shù)字宇宙將每兩年翻一番;到2020年,人均數(shù)據(jù)量將達到5247GB。
該報告同時顯示,盡管個人和機器每天產(chǎn)生大量數(shù)據(jù),使數(shù)字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數(shù)據(jù)得到了分析。由此可見,大數(shù)據(jù)的應(yīng)用幾乎是一塊未被開墾的處女地。
5.大數(shù)據(jù)的價值
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節(jié)化測量成為可能。從中挖掘用戶的行為習(xí)慣和喜好,從凌亂紛雜的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對產(chǎn)品和服務(wù)進行針對性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價值。大數(shù)據(jù)也日益顯現(xiàn)出對各個行業(yè)的推動力。
大數(shù)據(jù)時代的來臨首先由數(shù)據(jù)豐富度決定的。社交網(wǎng)絡(luò)興起,大量的UGC(互聯(lián)網(wǎng)術(shù)語,全稱為User Generated Content,即“用戶生成內(nèi)容”的意思)內(nèi)容、音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量更大,加上移動互聯(lián)網(wǎng)能更準(zhǔn)確、更快地收集用戶信息,比如位置、生活信息等數(shù)據(jù)。從數(shù)據(jù)量來說,已進入大數(shù)據(jù)時代,但硬件明顯已跟不上數(shù)據(jù)發(fā)展的腳步。
以往大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而現(xiàn)在提及“大數(shù)據(jù)”,通常是指解決問題的一種方法,并對其進行分析挖掘,進而從中獲得有價值信息,最終演化出一種新的商業(yè)模式。
雖然大數(shù)據(jù)在國內(nèi)還處于初級階段,但其商業(yè)價值已經(jīng)顯現(xiàn)出來。首先,掌握數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,定位角度不同,或側(cè)重于數(shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。
未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能就算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價值最大化。因此,大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價值。未來大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,由數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。據(jù)統(tǒng)計,大數(shù)據(jù)所形成的市場規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計會上漲到530億美元。