大數(shù)據(jù)時代所分析的數(shù)據(jù)的最主要特征是“多源異構(gòu)”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數(shù)據(jù)采集的源頭進行劃分,可將大數(shù)據(jù)時代分析處理的數(shù)據(jù)對象劃分為以下幾個類別:
(1)各網(wǎng)頁中用戶的瀏覽次數(shù)、點擊率,各種社交網(wǎng)站、動態(tài)網(wǎng)站網(wǎng)頁內(nèi)容信息的變化,搜索引擎中關(guān)鍵詞的搜索量、網(wǎng)絡(luò)實時監(jiān)控數(shù)據(jù)等互聯(lián)網(wǎng)數(shù)據(jù)。
(2)可以用于分析用戶行為、對系統(tǒng)的操作、以及系統(tǒng)運行狀態(tài)的日志數(shù)據(jù)。
(3)在通信領(lǐng)域中的各種信號、信令數(shù)據(jù),用戶的個人信息以及通話位置、時長等數(shù)據(jù)。
(4)國民經(jīng)濟中各領(lǐng)域、各行業(yè)的統(tǒng)計分析數(shù)據(jù)。
對于這些數(shù)量龐大的,來自不同源頭的非結(jié)構(gòu)化數(shù)據(jù)。其分析模式的特點如下:對于互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),其最主要的應(yīng)用是建立搜索引擎,通過搜索引擎進行數(shù)據(jù)檢索、處理。
隨著技術(shù)的不斷發(fā)展,個性化推薦引擎以及大數(shù)據(jù)分析引擎的問世能夠更加高效的在海量數(shù)據(jù)中分析得出更有價值的信息;對于日志數(shù)據(jù),可對用戶點擊瀏覽的行為日志和系統(tǒng)運行行為日志進行分析。使得系統(tǒng)能夠根據(jù)實際情況產(chǎn)生出更加智能的結(jié)果。日志數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的分析處理模式較為類似,都是通過細(xì)致分析從而探尋出數(shù)據(jù)中蘊藏的價值。
這種數(shù)據(jù)分析處理模式稱為“離線批處理模式”;對于通信領(lǐng)域的數(shù)據(jù)分析,分析決策人員會對經(jīng)過細(xì)致分析的數(shù)據(jù)進行統(tǒng)計歸納和查詢,并且在最短的時間內(nèi)獲得最有價值的信息。
以此來確保系統(tǒng)的交互性并最大限度地提升用戶體驗。這種數(shù)據(jù)分析處理模式稱為“查詢式分析”模式;對于互聯(lián)網(wǎng)以及國民經(jīng)濟中重要行業(yè)的數(shù)據(jù)進行實時監(jiān)控,這種模式稱為“實時數(shù)據(jù)分析處理“模式。
以上為依據(jù)時間特征劃分的數(shù)據(jù)分析模式。而實現(xiàn)這些分析模式的主要方法有:分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、WEB數(shù)據(jù)挖掘等。
要想從急劇增長的數(shù)據(jù)資源中挖掘分析出有價值的信息,需要先進的分析技術(shù)作支撐。從宏觀上看,大數(shù)據(jù)分析技術(shù)發(fā)展所面臨的問題均包含三個主要特征:
(1)數(shù)據(jù)量龐大并以驚人的速度增長;
(2)數(shù)據(jù)種類與結(jié)構(gòu)多樣化,并以半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)為主;
(3)需要具備及時快速的分析速度,即實時分析。這些特征使得傳統(tǒng)的數(shù)據(jù)分析技術(shù)無法滿足要求,更加先進的數(shù)據(jù)分析平臺才是大數(shù)據(jù)時代更好的選擇。
為了有效應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)分析問題的三個主要特征以及滿足大數(shù)據(jù)分析的基本需求,當(dāng)前以及未來一段時期內(nèi)將主要通過分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行由淺入深的分析和分類匯總。
例如,為滿足實時分析的需求通常會采用Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數(shù)據(jù)的應(yīng)用最廣泛的核心技術(shù)為Hadoop。
Hadoop是由Apache基金會所開發(fā)的一個基于Java的分布式數(shù)據(jù)處理和分析的軟件基礎(chǔ)架構(gòu)。
在這種架構(gòu)下,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop能夠?qū)?shù)量龐大的數(shù)據(jù)分解成規(guī)模較小、易訪問的數(shù)據(jù)集并發(fā)送到多臺服務(wù)器上進行分析,以此獲得高效的分析速率。該架構(gòu)主要由文件系統(tǒng)以及數(shù)據(jù)處理兩部分功能模塊組成。