— “Big data is like teenage sex, everyone talks about it, nobody reallyknows how to do it, everyone thinks everyone else is doing it, so everyoneclaims they are doing it.”
So now the question is, whatis big data?
何為大數(shù)據(jù)
過去,大數(shù)據(jù)指的是那些數(shù)量龐大而復(fù)雜的數(shù)據(jù)集,其大小超出了常用軟件工具在可容忍的時(shí)間內(nèi)捕獲、管理和處理數(shù)據(jù)的能力。一個(gè)更能達(dá)成共識(shí)的定義就是:大數(shù)據(jù)代表的信息資產(chǎn)的特點(diǎn)是具有非常龐大的數(shù)量,產(chǎn)生的速度非常快以及數(shù)據(jù)的多樣性,這些特點(diǎn)決定了需要特定的技術(shù)和分析方法來實(shí)現(xiàn)其價(jià)值的轉(zhuǎn)化。因此,其實(shí)近期“大數(shù)據(jù)”已經(jīng)很少用來指數(shù)據(jù)集的大小了,現(xiàn)在更傾向于指人們使用預(yù)測(cè)分析、用戶行為分析或某些其他高級(jí)的數(shù)據(jù)分析方法,從數(shù)據(jù)中提取信息創(chuàng)造價(jià)值。因?yàn)閿?shù)據(jù)本身的價(jià)值是無法直接可見的,但是通過各種數(shù)據(jù)計(jì)算和分析,可以將人們無法注意到的信息從數(shù)據(jù)中提取出來,創(chuàng)造價(jià)值。
這也是為什么企業(yè)們紛紛想搭建大數(shù)據(jù)分析平臺(tái)的原因。每天企業(yè)的內(nèi)部運(yùn)營(yíng)支撐系統(tǒng)和外部與客戶的交互系統(tǒng)都能產(chǎn)生大量的數(shù)據(jù),如何利用這些數(shù)據(jù)向企業(yè)內(nèi)部和外部企業(yè)客戶提供具有極大商業(yè)價(jià)值的信息支撐和智能解決方案已經(jīng)成為企業(yè)的重要的無形資產(chǎn)。根據(jù)企業(yè)量身定做的大數(shù)據(jù)分析平臺(tái),可為企業(yè)提供報(bào)表工具、分析工具、結(jié)合企業(yè)的實(shí)際需求進(jìn)行的解決方案實(shí)施服務(wù);企業(yè)的管理人員、業(yè)務(wù)分析人員等也可以通過web、手機(jī)或者其他移動(dòng)設(shè)備訪問,以便隨時(shí)了解企業(yè)的關(guān)鍵指標(biāo)和進(jìn)行深度業(yè)務(wù)分析。
何為大數(shù)據(jù)分析平臺(tái)?
那么大數(shù)據(jù)分析平臺(tái)具體是長(zhǎng)什么樣的呢?大部分?jǐn)?shù)據(jù)分析平臺(tái)都會(huì)按照下圖的架構(gòu)去搭建。
首先,最底層的是各種各樣的數(shù)據(jù)源。當(dāng)今的IT生態(tài)系統(tǒng),需要對(duì)各種不同種類來源的數(shù)據(jù)進(jìn)行分析。這些來源有可能是系統(tǒng)內(nèi)部的日志數(shù)據(jù),也有可能是來源于其他接口的數(shù)據(jù)等等。
然后從這些數(shù)據(jù)源采集各種符合企業(yè)需求的數(shù)據(jù),經(jīng)過驗(yàn)證、清洗、并轉(zhuǎn)化為所需格式后,儲(chǔ)存到一個(gè)合適的持久化儲(chǔ)存層中。
下一階段是數(shù)據(jù)的處理和分析,包括從數(shù)據(jù)分析人員從原始數(shù)據(jù)中分析出來的一些拓展信息,在這一階段中的一部分干凈數(shù)據(jù)是去規(guī)范化的,包括對(duì)一些相關(guān)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行一些排序,在規(guī)定的時(shí)間間隔內(nèi)進(jìn)行數(shù)據(jù)結(jié)果歸集,執(zhí)行機(jī)器學(xué)習(xí)算法,分析預(yù)測(cè)等。
最后一層,是可視化和展示各個(gè)不同分析算法處理過的結(jié)果。這個(gè)步驟包括從預(yù)先計(jì)算匯總的結(jié)果中讀取和用一種友好界面或者表格的形式展示出來,這樣便于企業(yè)內(nèi)部非專業(yè)人員對(duì)數(shù)據(jù)分析結(jié)果的理解。
大數(shù)據(jù)分析平臺(tái)的應(yīng)用
最基礎(chǔ)的大數(shù)據(jù)分析平臺(tái)有上述的幾層架構(gòu),如果是數(shù)據(jù)量龐大的企業(yè),會(huì)需要架構(gòu)更加復(fù)雜的分析平臺(tái)。
如果我們現(xiàn)在要為一間規(guī)模龐大的金融集團(tuán)構(gòu)建大數(shù)據(jù)分析平臺(tái),這個(gè)金融集團(tuán)的基本現(xiàn)狀為其商城已經(jīng)建立面向整個(gè)零售業(yè)務(wù)的數(shù)據(jù)倉(cāng)庫(kù),整合了前臺(tái)業(yè)務(wù)運(yùn)營(yíng)數(shù)據(jù)和后臺(tái)管理數(shù)據(jù),建立了面向零售的管理分析應(yīng)用;并且開展了供應(yīng)鏈金融、人人貸和保理等多種業(yè)務(wù),積累了一定量的業(yè)務(wù)數(shù)據(jù),同時(shí)業(yè)務(wù)人員也從客戶管理、風(fēng)險(xiǎn)評(píng)級(jí)和經(jīng)營(yíng)規(guī)模預(yù)測(cè)等方面,提出了大量分析預(yù)測(cè)需求。但是該集團(tuán)仍然存在一些問題,它的商城數(shù)據(jù)倉(cāng)庫(kù)積累的數(shù)據(jù)沒有充分的利用,缺乏面向整個(gè)金融集團(tuán)的統(tǒng)一、完整的數(shù)據(jù)視圖,以及缺乏支撐金融集團(tuán)日常業(yè)務(wù)運(yùn)轉(zhuǎn)的風(fēng)險(xiǎn)評(píng)估體系和客戶的360度視圖,客戶行為分析和預(yù)測(cè)無法實(shí)現(xiàn)。
那么,想而知,對(duì)于這個(gè)集團(tuán)目前建設(shè)基礎(chǔ)數(shù)據(jù)平臺(tái)和BI應(yīng)用是未來一段時(shí)間的重點(diǎn)。通過數(shù)據(jù)平臺(tái)和BI應(yīng)用建設(shè),他們可以搭建統(tǒng)一的大數(shù)據(jù)共享和分析平臺(tái),對(duì)各類業(yè)務(wù)進(jìn)行前瞻性預(yù)測(cè)分析,并為集團(tuán)各層次用戶提供統(tǒng)一的決策分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力。下圖為該集團(tuán)的大數(shù)據(jù)分析平臺(tái)的效果圖,可視為最終的建設(shè)目標(biāo)。
所以,這個(gè)集團(tuán)的大數(shù)據(jù)分析平臺(tái)該如何構(gòu)建呢?
首先該集團(tuán)的數(shù)據(jù)來源可分為兩大塊,一是源數(shù)據(jù)內(nèi)容:有內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),如供應(yīng)商信息、客戶信息等,還有企業(yè)內(nèi)外部的非結(jié)構(gòu)化數(shù)據(jù),包括用戶訪問日志、用戶點(diǎn)評(píng)、投訴等;二是源數(shù)據(jù)增量,主要為商城和金融集團(tuán)業(yè)務(wù)系統(tǒng)數(shù)據(jù)(見下圖):
這些數(shù)據(jù)需要通過數(shù)據(jù)交換平臺(tái)傳輸?shù)缴蠈庸┨幚碛?jì)算,傳輸組件需根據(jù)數(shù)據(jù)源存儲(chǔ)結(jié)構(gòu)和存儲(chǔ)數(shù)據(jù)庫(kù)的特點(diǎn)的不同來設(shè)計(jì),以追求性能的卓越。在數(shù)據(jù)存儲(chǔ)層之上,是數(shù)據(jù)計(jì)算層。大家看著數(shù)據(jù)計(jì)算層里面的結(jié)構(gòu)比較復(fù)雜,具體每一個(gè)區(qū)是一個(gè)什么功能下面為大家講解一下:
貼源數(shù)據(jù)區(qū)主要用于處理業(yè)務(wù)系統(tǒng)前日快照數(shù)據(jù)和一段時(shí)間的流水?dāng)?shù)據(jù),將數(shù)據(jù)標(biāo)準(zhǔn)化,為后續(xù)主題模型、集市和沙盤演練提供數(shù)據(jù);
大數(shù)據(jù)區(qū)主要采集并存儲(chǔ)企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),將其進(jìn)行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù);歷史歸檔數(shù)據(jù)區(qū)適用于存儲(chǔ)其他各數(shù)據(jù)區(qū)的歷史數(shù)據(jù),按數(shù)據(jù)生命周期規(guī)劃歸檔平臺(tái)過期數(shù)據(jù),支撐歷史數(shù)據(jù)的查詢;
主題數(shù)據(jù)區(qū)用于處理業(yè)務(wù)系統(tǒng)例示明細(xì),打破業(yè)務(wù)條線整合數(shù)據(jù),并對(duì)主題數(shù)據(jù)預(yù)加工后的處理結(jié)果,針對(duì)應(yīng)用需求進(jìn)行數(shù)據(jù)預(yù)連接、預(yù)匯總,為集市提供數(shù)據(jù);
再上層的沙盤演練數(shù)據(jù)區(qū)是按照沙盤演練需求,準(zhǔn)備明細(xì)或匯總業(yè)務(wù)數(shù)據(jù),為數(shù)據(jù)科學(xué)家的挖掘預(yù)測(cè)操作提供數(shù)據(jù)服務(wù);
而應(yīng)用集市數(shù)據(jù)區(qū)是面向企業(yè)內(nèi)部管理分析類應(yīng)用需求而匯總數(shù)據(jù),為客戶、運(yùn)營(yíng)等管理分析主題和數(shù)據(jù)增值產(chǎn)品提供數(shù)據(jù)服務(wù);增值產(chǎn)品區(qū)則是根據(jù)外部用戶數(shù)據(jù)使用需求數(shù)據(jù)平臺(tái)加工計(jì)算的結(jié)果數(shù)據(jù),為了部署在數(shù)據(jù)平臺(tái)上的企業(yè)內(nèi)外部增值產(chǎn)品提供數(shù)據(jù)支持;
實(shí)施數(shù)據(jù)區(qū)是面向應(yīng)用業(yè)務(wù)系統(tǒng)存儲(chǔ)快照數(shù)據(jù)和一段時(shí)間的交易流水,為實(shí)時(shí)獲準(zhǔn)實(shí)時(shí)分析應(yīng)用提供數(shù)據(jù)服務(wù)。
然后再上層就是企業(yè)數(shù)據(jù)的各種應(yīng)用了,主要分為企業(yè)內(nèi)部的管理分析應(yīng)用;數(shù)據(jù)增
類產(chǎn)品的應(yīng)用,即數(shù)據(jù)科學(xué)家根據(jù)業(yè)務(wù)需求,設(shè)計(jì)并運(yùn)行模型,發(fā)掘數(shù)據(jù)價(jià)值,并封裝成商業(yè)產(chǎn)品;沙盤演練應(yīng)用,這是業(yè)務(wù)人員根據(jù)業(yè)務(wù)需求,設(shè)計(jì)計(jì)算模型,準(zhǔn)備各類明細(xì)或匯總數(shù)據(jù),導(dǎo)入模型運(yùn)算,驗(yàn)證業(yè)務(wù)結(jié)果;歷史數(shù)據(jù)類應(yīng)用以及高時(shí)效性的分析應(yīng)用。最終用一個(gè)用戶友好的界面將整個(gè)平臺(tái)封裝起來供用戶訪問。