1. 大數(shù)據(jù)概述
1.1. 概述
大數(shù)據(jù),IT行業(yè)的又一次技術變革,大數(shù)據(jù)的浪潮洶涌而至,對國家治理、企業(yè)決策和個人生活都在產生深遠的影響,并將成為云計算、物聯(lián)網(wǎng)之后信息技術產業(yè)領域又一重大創(chuàng)新變革。未來的十年將是一個“大數(shù)據(jù)”引領的智慧科技的時代、隨著社交網(wǎng)絡的逐漸成熟,移動帶寬迅速提升、云計算、物聯(lián)網(wǎng)應用更加豐富、更多的傳感設備、移動終端接入到網(wǎng)絡,由此而產生的數(shù)據(jù)及增長速度將比歷史上的任何時期都要多、都要快。
數(shù)據(jù)技術發(fā)展歷史如圖一所示:
圖一
1.2. 大數(shù)據(jù)定義
“大數(shù)據(jù)”是一個涵蓋多種技術的概念,簡單地說,是指無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數(shù)據(jù)集合。IBM將“大數(shù)據(jù)”理念定義為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產生的價值(Value)。如圖二;
圖二
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
? 數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。
? 數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息,等等。
? 價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
? 處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術并將其應用到相關領域,通過解決巨量數(shù)據(jù)處理問題促進其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術研發(fā),搶占時代發(fā)展的前沿。
1.3. 大數(shù)據(jù)技術發(fā)展
大數(shù)據(jù)技術描述了一種新一代技術和構架,用于以很經濟的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術,從各種超大規(guī)模的數(shù)據(jù)中提取價值,而且未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術手段。如圖三所示:
圖三
在“大數(shù)據(jù)”(Big data)時代,通過互聯(lián)網(wǎng)、社交網(wǎng)絡、物聯(lián)網(wǎng),人們能夠及時全面地獲得大信息。同時,信息自身存在形式的變化與演進,也使得作為信息載體的數(shù)據(jù)以遠超人們想象的速度迅速膨脹。
云時代的到來使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉向個體,而個體所產生的絕大部分數(shù)據(jù)為圖片、文檔、視頻等非結構化數(shù)據(jù)。信息化技術的普及使得企業(yè)更多的辦公流程通過網(wǎng)絡得以實現(xiàn),由此產生的數(shù)據(jù)也以非結構化數(shù)據(jù)為主。預計到2012年,非結構化數(shù)據(jù)將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結構化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)、BI、鏈路挖掘等應用對數(shù)據(jù)處理的時間要求往往以小時或天為單位。但“大數(shù)據(jù)”應用突出強調數(shù)據(jù)處理的實時性。在線個性化推薦、股票交易處理、實時路況信息等數(shù)據(jù)處理時間要求在分鐘甚至秒級。
全球技術研究和咨詢公司Gartner將“大數(shù)據(jù)”技術列入2012年對眾多公司和組織機構具有戰(zhàn)略意義的十大技術與趨勢之一,而其他領域的研究,如云計算、下一代分析、內存計算等也都與“大數(shù)據(jù)”的研究相輔相成。Gartner在其新興技術成熟度曲線中將“大數(shù)據(jù)”技術視為轉型技術,這意味著“大數(shù)據(jù)”技術將在未來3—5年內進入主流。
而 “大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來源的復雜性,從智能傳感器到社交網(wǎng)絡數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無窮無盡的。選擇正確的數(shù)據(jù)來源并進行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長,數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應用亟待解決的問題。例如如何實時地及通過各種數(shù)據(jù)庫管理系統(tǒng)來安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲策略,評估當前的數(shù)據(jù)存儲技術并改進、加強數(shù)據(jù)存儲能力,最大限度地利用現(xiàn)有的存儲投資。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產。
“大數(shù)據(jù)”不僅是一場技術變革,更是一場商業(yè)模式變革。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個新的銷售渠道,但總體來看,二者平行發(fā)展,鮮有交集。我們可以看到,無論是Google通過分析用戶個人信息,根據(jù)用戶偏好提供精準廣告,還是Facebook將用戶的線下社會關系遷移在線上,構造一個半真實的實名帝國,但這些商業(yè)和消費模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無法嫁接到互聯(lián)網(wǎng)中。同時,傳統(tǒng)企業(yè)通過傳統(tǒng)的用戶分析工具卻很難獲得大范圍用戶的真實需求。
企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點。在互聯(lián)網(wǎng)時代,這些需求特征往往是在用戶不經意的行為中透露出來的。通過對信息進行關聯(lián)、參照、聚類、分類等方法分析,才能得到答案。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個交集。它推動互聯(lián)網(wǎng)企業(yè)融合進傳統(tǒng)企業(yè)的供應鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結合,網(wǎng)民和消費者的融合,必將引發(fā)消費模式、制造模式、管理模式的巨大變革。
大數(shù)據(jù)正成為IT行業(yè)全新的制高點,各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關技術呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應用領域嶄露頭角,具體情況如下圖四所示:
圖四
大數(shù)據(jù)將帶來巨大的技術和商業(yè)機遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價值,而隨著應用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計算面臨嚴重挑戰(zhàn),大規(guī)模數(shù)據(jù)處理和行業(yè)應用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲和計算資源進行處理,云計算技術是最理想的解決方案。調查顯示:目前,IT專業(yè)人員對云計算中諸多關鍵技術最為關心的是大規(guī)模數(shù)據(jù)并行處理技術大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對于應用行業(yè)來說,云計算平臺軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應用沒有現(xiàn)成和通用的軟件,需要針對特定的應用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術研究、以及系統(tǒng)的設計實現(xiàn),這些都為大數(shù)據(jù)處理技術的發(fā)展提供了巨大的驅動力。