從技術(shù)上看,大數(shù)據(jù)[1]與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式計算架構(gòu)。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和/或虛擬化技術(shù)。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代[4]》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注?!?/span>著云臺》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:
8bit= 1Byte
1KB= 1,024 Bytes
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
1887–1890年
赫爾曼·霍爾瑞斯美國統(tǒng)計學家赫爾曼·霍爾瑞斯為了統(tǒng)計1890年的人口普查數(shù)據(jù)發(fā)明了一臺電動器來讀取卡片上的洞數(shù),該設備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀元。
1935–1937年
美國總統(tǒng)富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數(shù)據(jù)收集項目,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個雇主的記錄。共和黨總統(tǒng)候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調(diào)用大規(guī)模的現(xiàn)場調(diào)查人員去核實那些信息不完整的人員記錄。”
1943年
一家英國工廠為了破譯二戰(zhàn)期間的納粹密碼,讓工程師開發(fā)了系列開創(chuàng)性的能進行大規(guī)模數(shù)據(jù)處理的機器,并使用了第一臺可編程的電子計算機進行運算。該計算機被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費數(shù)周時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的信息以后,幫助盟軍成功登陸了諾曼底。
1997年
美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語來描述20世紀90年代的挑戰(zhàn):超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數(shù)據(jù)集通常之大,超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力。”他們稱之為“大數(shù)據(jù)問題。”
2002年
在9/11襲擊后,美國政府為阻止恐怖主義已經(jīng)涉足大規(guī)模數(shù)據(jù)挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現(xiàn)有政府的數(shù)據(jù)集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數(shù)據(jù)庫。一年后國會因擔憂公民自由權(quán)而停止了這一項目。
2004年
9/11委員會呼吁反恐機構(gòu)應統(tǒng)一組建“一個基于網(wǎng)絡的信息共享系統(tǒng)”,以便能快處理應接不暇的數(shù)據(jù)。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關(guān)于客戶購物和個人習慣的大量數(shù)據(jù),沃爾瑪自吹已擁有一個容量為460字節(jié)的緩存器——比當時互聯(lián)網(wǎng)上的數(shù)據(jù)量還要多一倍。
2007–2008年
隨著社交網(wǎng)絡的激增,技術(shù)博客和專業(yè)人士為“大數(shù)據(jù)” 概念注入新的生機。“當前世界范圍內(nèi)已有的一些其他工具將被大量數(shù)據(jù)和應用算法所取代”?!?/span>連線》的克里斯·安德森認為當時處于一個“理論終結(jié)時代”。一些政府機構(gòu)和美國的頂尖計算機科學家聲稱,“應該深入?yún)⑴c大數(shù)據(jù)計算的開發(fā)和部署工作,因為它將直接有利于許多任務的實現(xiàn)。”
2009年1月
印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,并為每人分配12位的數(shù)字ID號碼,將數(shù)據(jù)匯集到世界最大的生物識別數(shù)據(jù)庫中。官員們說它將會起到提高政府的服務效率和減少腐敗行為的作用,但批評者擔心政府會針對個別人進行剖面分析并與分享這些人的私密生活細節(jié)。
2009年5月
大數(shù)據(jù)或成反恐分析利器美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov網(wǎng)站作為政府開放數(shù)據(jù)計劃的部分舉措。該網(wǎng)站的超過4.45萬量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機應用程序來跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動激發(fā)了從肯尼亞到英國范圍內(nèi)的政府們相繼推出類似舉措。
2009年7月
應對全球金融危機,聯(lián)合國秘書長潘基文承諾創(chuàng)建警報系統(tǒng),抓住“實時數(shù)據(jù)帶給貧窮國家經(jīng)濟危機的影響” 。聯(lián)合國全球脈沖項目已研究了對如何利用手機和社交網(wǎng)站的數(shù)據(jù)源來分析預測從螺旋價格到疾病爆發(fā)之類的問題。
2011年2月
掃描2億年的頁面信息,或4兆兆字節(jié)磁盤存儲,只需幾秒即可完成。IBM的沃森計算機系統(tǒng)在智力競賽節(jié)目《危險邊緣》中打敗了兩名人類挑戰(zhàn)者。后來紐約時報配音這一刻為一個“大數(shù)據(jù)計算的勝利?!?/span>
2012年3月
美國政府報告要求每個聯(lián)邦機構(gòu)都要有一個“大數(shù)據(jù)”的策略,作為回應,奧巴馬政府宣布一項耗資2億美元的大數(shù)據(jù)研究與發(fā)展項目。國家衛(wèi)生研究院將一套人類基因組項目的數(shù)據(jù)集存放在亞馬遜的計算機云內(nèi),同時國防部也承諾要開發(fā)出可“從經(jīng)驗中進行學習”的“自主式”防御系統(tǒng)。中央情報局局長戴維·彼得雷烏斯將軍在發(fā)帖討論阿拉伯之春機構(gòu)通過云計算收集和分析全球社會媒體信息之事時,不禁驚嘆我們已經(jīng)被自卸卡車倒進了“‘數(shù)字塵土”中。
2012年7月
美國國務卿希拉里·克林頓宣布了一個名為“數(shù)據(jù)2X”的公私合營企業(yè)用來收集統(tǒng)計世界各地的婦女和女童在經(jīng)濟、政治和社會地位方面的信息?!皵?shù)據(jù)不只是測量過程——它能給予我們啟發(fā),”她解釋說?!耙坏┤藗冮_始對某個問題實施測量時,就更傾向于采取行動來解決它們,因為沒有人愿意排到名單的最低端去?!弊尨髷?shù)據(jù)開始競賽吧。
HadoopMapReduce
思維模式轉(zhuǎn)變的催化劑是大量新技術(shù)的誕生,它們能夠處理大數(shù)據(jù)分析所帶來的3個V的挑戰(zhàn)。扎根于開源社區(qū),Hadoop已經(jīng)是目前大數(shù)據(jù)平臺中應用率最高的技術(shù),特別是針對諸如文本、社交媒體訂閱以及視頻等非結(jié)構(gòu)化數(shù)據(jù)。除分布式文件系統(tǒng)之外,伴隨Hadoop一同出現(xiàn)的還有進行大數(shù)據(jù)集處理MapReduce架構(gòu)。根據(jù)權(quán)威報告顯示,許多企業(yè)都開始使用或者評估Hadoop技術(shù)來作為其大數(shù)據(jù)平臺的標準。
我們生活的時代,相對穩(wěn)定的數(shù)據(jù)庫市場中還在出現(xiàn)一些新的技術(shù),而且在未來幾年,它們會發(fā)揮作用。事實上,NoSQL數(shù)據(jù)庫在一個廣義上派系基礎上,其本身就包含了幾種技術(shù)。總體而言,他們關(guān)注關(guān)系型數(shù)據(jù)庫引擎的限制,如索引、流媒體和高訪問量的網(wǎng)站服務。在這些領域,相較關(guān)系型數(shù)據(jù)庫引擎,NoSQL的效率明顯更高。
內(nèi)存分析
在Gartner公司評選的2012年十大戰(zhàn)略技術(shù)中,內(nèi)存分析在個人消費電子設備以及其他嵌入式設備中的應用將會得到快速的發(fā)展。隨著越來越多的價格低廉的內(nèi)存用到數(shù)據(jù)中心中,如何利用這一優(yōu)勢對軟件進行最大限度的優(yōu)化成為關(guān)鍵的問題。內(nèi)存分析以其實時、高性能的特性,成為大數(shù)據(jù)分析時代下的“新寵兒”。如何讓大數(shù)據(jù)轉(zhuǎn)化為最佳的洞察力,也許內(nèi)存分析就是答案。大數(shù)據(jù)背景下,用戶以及IT提供商應該將其視為長遠發(fā)展的技術(shù)趨勢。
集成設備
隨著數(shù)據(jù)倉庫設備(Data Warehouse Appliance)的出現(xiàn),商業(yè)智能以及大數(shù)據(jù)分析的潛能也被激發(fā)出來,許多企業(yè)將利用數(shù)據(jù)倉庫新技術(shù)的優(yōu)勢提升自身競爭力。集成設備將企業(yè)的數(shù)據(jù)倉庫硬件軟件整合在一起,提升查詢性能、擴充存儲空間并獲得更多的分析功能,并能夠提供同傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)一樣的優(yōu)勢。在大數(shù)據(jù)時代,集成設備將成為企業(yè)應對數(shù)據(jù)挑戰(zhàn)的一個重要利器。
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分模谝栽朴嬎銥榇淼募夹g(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。
其次,想要系統(tǒng)的認知大數(shù)據(jù),必須要全面而細致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經(jīng)途徑,也是被廣泛認同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。在這里分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。
第三層面是實踐,實踐是大數(shù)據(jù)的最終價值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍圖。
大數(shù)據(jù)大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應用,具有數(shù)據(jù)量大、查詢分析復雜等特點。《計算機學報》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當前的主流實現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹,對未來研究做了展望。
大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進行存儲和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。
當前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。
開源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce, Hbase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDB
商用大數(shù)據(jù)生態(tài)圈:
1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。
大數(shù)據(jù)定義:將海量的來自前端的數(shù)據(jù)快速導入到一個集中的大型分布式數(shù)據(jù)庫 或者分布式存儲集群,利用分布式技術(shù)來對存儲于其內(nèi)的集中的海量數(shù)據(jù) 進行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求。
特點和挑戰(zhàn):導入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請求多。
使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實時分析。
定義:基于前面的查詢數(shù)據(jù)進行數(shù)據(jù)挖掘,來滿足高級別 的數(shù)據(jù)分析需求。
特點和挑戰(zhàn):算法復雜,并且計算涉及的數(shù)據(jù)量和計算量都大。
使用的產(chǎn)品:R,Hadoop Mahout
我們需要的是以數(shù)據(jù)為中心的SOA還是以SOA為中心的數(shù)據(jù)?答案取決于如何處理的SOA-數(shù)據(jù)關(guān)系的三個不同模型來管理大數(shù)據(jù)、云數(shù)據(jù)和數(shù)據(jù)層次結(jié)構(gòu)。在越來越多的虛擬資源中,將這些模型之間所有類型的數(shù)據(jù)進行最優(yōu)擬合是SOA所面臨的巨大挑戰(zhàn)之一。本文詳細介紹了每個SOA模型管理數(shù)據(jù)的優(yōu)點、選擇和選項。
SOA的三個數(shù)據(jù)中心模型分別是數(shù)據(jù)即服務(DaaS)模型、物理層次結(jié)構(gòu)模型和架構(gòu)組件模型。DaaS數(shù)據(jù)存取的模型描述了數(shù)據(jù)是如何提供給SOA組件的。物理模型描述了數(shù)據(jù)是如何存儲的以及存儲的層次圖是如何傳送到SOA數(shù)據(jù)存儲器上的。最后,架構(gòu)模型描述了數(shù)據(jù)、數(shù)據(jù)管理服務和SOA組件之間的關(guān)系。
SOA和數(shù)據(jù)企業(yè)的例子
也許以極限情況為開始是理解SOA數(shù)據(jù)問題的最好方式:一個企業(yè)的數(shù)據(jù)需求完全可以由關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)中的條款來表示。這樣一個企業(yè)可能會直接采用數(shù)據(jù)庫設備或者將專用的數(shù)據(jù)庫服務器和現(xiàn)有的查詢服務連接到SOA組件(查詢即服務,或QaaS)上。這種設計理念之前已經(jīng)被人們所接受。該設計之所以成功是因為它平衡了上述三個模型之間的關(guān)系。QaaS服務模型不是機械地連接到存儲器上;而是通過一個單一的架構(gòu)——RDBMS(關(guān)系型數(shù)據(jù)庫管理系統(tǒng))。數(shù)據(jù)去重和完整性便于管理單一的架構(gòu)。
通過大數(shù)據(jù)的例子可以更好地理解為什么這個簡單的方法卻不能在更大的范圍內(nèi)處理數(shù)據(jù)。多數(shù)的大數(shù)據(jù)是非關(guān)系型的、非交易型的、非結(jié)構(gòu)化的甚至是未更新的數(shù)據(jù)。由于缺乏數(shù)據(jù)結(jié)構(gòu)因此將其抽象成一個查詢服務并非易事,由于數(shù)據(jù)有多個來源和形式因此很少按序存儲,并且定義基礎數(shù)據(jù)的完整性和去重過程是有一些規(guī)則的。當作為大數(shù)據(jù)引入到SOA的應用程序中時,關(guān)鍵是要定義三種模型中的最后一種模型,SOA數(shù)據(jù)關(guān)系中的架構(gòu)模型。有兩種選擇:水平方向和垂直方向。
大數(shù)據(jù):“人工特征工程+線性模型”的盡頭SOA和各類數(shù)據(jù)模型
在水平集成數(shù)據(jù)模型中,數(shù)據(jù)收集隱蔽于一套抽象的數(shù)據(jù)服務器,該服務器有一個或多個接口連接到應用程序上,也提供所有的完整性和數(shù)據(jù)管理功能。組件雖不能直接訪問數(shù)據(jù),但作為一種即服務形式,就像他們在簡單情況下的企業(yè),其數(shù)據(jù)的要求是純粹的RDBMS模型。應用程序組件基本上脫離了RDBMS與大數(shù)據(jù)之間數(shù)據(jù)管理的差異。盡管由于上述原因這種方法不能創(chuàng)建簡單的RDBMS查詢模型,但是它至少復制了我們上面提到的簡單的RDBMS模型。
垂直集成的數(shù)據(jù)模型以更多應用程序特定的方式連接到數(shù)據(jù)服務上,該方式使得客戶關(guān)系管理、企業(yè)資源規(guī)劃或動態(tài)數(shù)據(jù)認證的應用程序數(shù)據(jù)很大程度在服務水平上相互分離,這種分離直接涉及到數(shù)據(jù)基礎設施。在某些情況下,這些應用程序或許有可以直接訪問存儲/數(shù)據(jù)服務的SOA組件。為了提供更多統(tǒng)一的數(shù)據(jù)完整性和管理,管理服務器可以作為SOA組件來操作各種數(shù)據(jù)庫系統(tǒng),以數(shù)據(jù)庫特定的方式執(zhí)行常見的任務,如去重和完整性檢查。這種方法更容易適應于遺留應用和數(shù)據(jù)結(jié)構(gòu), 但它在問數(shù)據(jù)何訪方式上會破壞SOA即服務原則,也可能產(chǎn)生數(shù)據(jù)管理的一致性問題。
SOA和水平數(shù)據(jù)模型
毫無疑問水平模型更符合SOA原則,因為它更徹底地從SOA組件中抽象出了數(shù)據(jù)服務。不過,為了使其有效,有必要對非關(guān)系型數(shù)據(jù)庫進行抽象定義和處理低效率與抽象有關(guān)的流程——SOA架構(gòu)師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。
水平的SOA數(shù)據(jù)策略已經(jīng)開始應用于適用大數(shù)據(jù)的抽象數(shù)據(jù)。解決這個問題最常見的方法是MapReduce,可以應用于Hadoop形式的云構(gòu)架。Hadoop以及類似的方法可以分發(fā)、管理和訪問數(shù)據(jù),然后集中查詢這一分布式信息的相關(guān)結(jié)果。實際上,SOA組件應將MapReduce和類似數(shù)據(jù)分析功能作為一種查詢功能應用。
效率問題
效率問題較為復雜。因為水平數(shù)據(jù)庫模型可能是通過類似大多數(shù)SOA流程的信息服務總線來完成的,一個重要的步驟是要確保與該編排相關(guān)的開銷額度保持在最低程度。這可以幫助減少與SOA相關(guān)的數(shù)據(jù)訪問開銷,但它不能克服存儲系統(tǒng)本身的問題。因為這些存儲系統(tǒng)已經(jīng)通過水平模型脫離了SOA組件,很容易被忽略與延遲和數(shù)據(jù)傳輸量相關(guān)的問題,特別地,如果數(shù)據(jù)庫是云分布的,那么使用他們就會產(chǎn)生可變的網(wǎng)絡延遲。
上述問題的一個解決方案是現(xiàn)代分層存儲模式。數(shù)據(jù)庫不是磁盤,而是一組相互連接的高速緩存點,其存儲于本地內(nèi)存中,也可能轉(zhuǎn)向固態(tài)硬盤,然后到本地磁盤,最后到云存儲。緩存算法處理這些緩存點之間的活動,從而來平衡存儲成本(同時也是平衡同步地更新成本)和性能。
大數(shù)據(jù)應用領域對于大數(shù)據(jù),它也是經(jīng)??梢詣?chuàng)建適用于大多數(shù)分析的匯總數(shù)據(jù)。例如一個計算不同地點車輛數(shù)量的交通遙測應用。這種方法可以產(chǎn)生大量的數(shù)據(jù),但是如果匯總數(shù)據(jù)最后一分鐘還存儲在內(nèi)存中,最后一小時存儲在閃存中,最后一天存在磁盤上,那么控制應用程序所需的實際時間可以通過快速訪問資源得到滿足,然而假設分析時我們可以使用一些更便宜、更慢的應用程序是會怎樣。
SOA都是抽象的,但當抽象隱藏了底層影響性能和響應時間的復雜性時,這種抽象的危險程度會提高。數(shù)據(jù)訪問也是這樣的,因此,SOA架構(gòu)師需要認真地考慮抽象與性能之間的平衡關(guān)系,并為其特定的業(yè)務需求優(yōu)化它。
Hadoop旨在通過一個高度可擴展的分布式批量處理系統(tǒng),對大型數(shù)據(jù)集進行掃描,以產(chǎn)生其結(jié)果。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。
Hadoop平臺對于操作非常大型的數(shù)據(jù)集而言可以說是一個強大的工具。為了抽象Hadoop編程模型的一些復雜性,已經(jīng)出現(xiàn)了多個在Hadoop之上運行的應用開發(fā)語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數(shù),并使用稱為Hadoop Streaming(簡寫為Streaming)的API調(diào)用它們。
流定義
從技術(shù)角度而言,流是通過邊緣連接的節(jié)點圖。圖中的每個節(jié)點都是“運算符”或“適配器”,均能夠在某種程度上處理流內(nèi)的數(shù)據(jù)。節(jié)點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節(jié)點的輸出與另外一個或多個節(jié)點的輸入相互連接。圖形的邊緣將這些節(jié)點緊密聯(lián)系在一起,表示在運算符之間移動的數(shù)據(jù)流。
右圖一個簡單的流圖,它可以從文件中讀取數(shù)據(jù),將數(shù)據(jù)發(fā)送到名為Functor的運算符(此運算符能夠以某種編程方式轉(zhuǎn)換所傳入的數(shù)據(jù)),然后將這些數(shù)據(jù)傳入另一個運算符。在此圖片中,流數(shù)據(jù)被傳送至Split運算符,而后又將數(shù)據(jù)傳入文件接收器或數(shù)據(jù)庫(具體情況視Split運算符的內(nèi)部狀況而定)。
利用Apache Hadoop等開源項目,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數(shù)據(jù)創(chuàng)造價值。
大數(shù)據(jù)應用領域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,數(shù)據(jù)將會流過有能力操控數(shù)據(jù)流(每秒鐘可能包含數(shù)百萬個事件)的運算符,然后對這些數(shù)據(jù)執(zhí)行動態(tài)分析。這項分析可觸發(fā)大量事件,使企業(yè)利用即時的智能實時采取行動,最終改善業(yè)務成果。
當數(shù)據(jù)流過這些分析組件后,Streams將提供運算符將數(shù)據(jù)存儲至各個位置,或者如果經(jīng)過動態(tài)分析某些數(shù)據(jù)被視為毫無價值,則會丟棄這些數(shù)據(jù)。你可能會認為Streams與復雜事件處理(CEP) 系統(tǒng)非相似,不過Streams的設計可擴展性更高,并且支持的數(shù)據(jù)流量也比其他系統(tǒng)多得多。此外,Streams還具備更高的企業(yè)級特性,包括高可用性、豐富的應用程序開發(fā)工具包和高級調(diào)度。
出于這樣的目的,許多組織開始啟動自己的大數(shù)據(jù)治理計劃。所謂大數(shù)據(jù)治理,指的是制定策略來協(xié)調(diào)多個職能部門的目標,從而優(yōu)化、保護和利用大數(shù)據(jù),將其作為一項企業(yè)資產(chǎn)。
容量問題
這里所說的“大容量”通常可達到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產(chǎn)品,客戶可以將數(shù)據(jù)庫事務處理性能提高30倍,并且超過每秒4.0GB的持續(xù)吞吐能力,非常適用于大數(shù)據(jù)分析。
延遲問題
“大數(shù)據(jù)”應用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應用。有很多“大數(shù)據(jù)”應用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設備應運而生,小到簡單的在服務器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)可擴展存儲系統(tǒng)通過高性能閃存存儲,自動、智能地對熱點數(shù)據(jù)進行讀/寫高速緩存的LSI Nytro系列產(chǎn)品等等都在蓬勃發(fā)展。
安全問題
某些特殊行業(yè)的應用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,大數(shù)據(jù)應用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass? 技術(shù)的LSI SandForce?閃存處理器的優(yōu)勢了,實現(xiàn)了企業(yè)級閃存性能和可靠性,實現(xiàn)簡單、透明的應用加速,既安全又方便。
對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。重復數(shù)據(jù)刪除等技術(shù)已經(jīng)進入到主存儲市場,而且還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro? MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,數(shù)據(jù)中心使用的傳統(tǒng)引導驅(qū)動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數(shù)據(jù)中心的獨立服務器引導驅(qū)動器,則能將可靠性提升多達100倍。并且對主機系統(tǒng)是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達60%,真正做到了節(jié)省成本的問題。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲系統(tǒng)的基礎設施規(guī)模通常都很大,因此必須經(jīng)過仔細設計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎設施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應各種不同的應用類型和數(shù)據(jù)場景。
應用感知
最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應用的定制的基礎設施,比如針對政府項目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務商創(chuàng)造的專用服務器等。在主流存儲系統(tǒng)領域,應用感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應用感知技術(shù)也應該用在大數(shù)據(jù)存儲環(huán)境里。
針對小用戶
依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。
大數(shù)據(jù)大數(shù)據(jù)治理計劃也需要關(guān)注與其他信息治理計劃類似的問題。這些計劃必須解決以下問題:
■元數(shù)據(jù)
大數(shù)據(jù)治理需要創(chuàng)建可靠的元數(shù)據(jù),避免出現(xiàn)窘境,例如,一家企業(yè)重復購買了相同的數(shù)據(jù)集兩次,而原因僅僅是該數(shù)據(jù)集在兩個不同的存儲庫內(nèi)使用了不同的名稱。
■隱私
企業(yè)需要嚴格關(guān)注遵守隱私方面的問題,例如利用社交媒體進行數(shù)據(jù)分析。
■數(shù)據(jù)質(zhì)量
考慮到大數(shù)據(jù)的龐大數(shù)量和超快速度,組織需要確定哪種級別的數(shù)據(jù)質(zhì)量屬于“足夠好”的質(zhì)量。
■信息生命周期管理。大數(shù)據(jù)治理計劃需要制定存檔策略,確保存儲成本不會超出控制。除此之外,組織需要設定保留計劃,以便按照法規(guī)要求合理處置數(shù)據(jù)。
■管理人員
最終,企業(yè)需要招募大數(shù)據(jù)管理員。例如,石油與天然氣公司內(nèi)的勘探開采部門的管理員負責管理地震數(shù)據(jù),包括相關(guān)元數(shù)據(jù)在內(nèi)。這些管理員需要避免組織因不一致的命名規(guī)范而付款購買已經(jīng)擁有的外部數(shù)據(jù)。除此之外,社交媒體管理員需要與法律顧問和高級管理人員配合工作,制定有關(guān)可接受的信息使用方法的策略。
眾所周知,企業(yè)數(shù)據(jù)本身就蘊藏著價值,但是將有用的數(shù)據(jù)與沒有價值的數(shù)據(jù)進行區(qū)分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對于企業(yè)的運轉(zhuǎn)至關(guān)重要,但是其他數(shù)據(jù)也擁有轉(zhuǎn)化為價值的力量。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們在購買您的服務前后的所作所為、如何通過社交網(wǎng)絡聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。
但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉(zhuǎn)變的工具。
畢竟,數(shù)據(jù)和人員是業(yè)務部門僅有的兩筆無法被競爭對手復制的財富。在善用的人手中,好的數(shù)據(jù)是所有管理決策的基礎,帶來的是對客戶的深入了解和競爭優(yōu)勢。數(shù)據(jù)是業(yè)務部門的生命線,必須讓數(shù)據(jù)在決策和行動時無縫且安全地流到人們手中。
大數(shù)據(jù)應用所以,數(shù)據(jù)應該隨時為決策提供依據(jù)??纯丛谡_道路和公共交通的使用信息這樣看起來甚至有點晦澀的數(shù)據(jù)時會發(fā)生什么:這些數(shù)據(jù)來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些數(shù)據(jù),創(chuàng)造滿足潛在需求的新產(chǎn)品和服務。
企業(yè)需要向創(chuàng)造和取得數(shù)據(jù)方面的投入索取回報。有效管理來自新舊來源的數(shù)據(jù)以及獲取能夠破解龐大數(shù)據(jù)集含義的工具只是等式的一部分,但是這種挑戰(zhàn)不容低估。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡等合作和交流系統(tǒng)以非結(jié)構(gòu)化文本的形式保存數(shù)據(jù),必須用一種智能的方式來解讀。
但是,應該將這種復雜性看成是一種機會而不是問題。處理方法正確時,產(chǎn)生的數(shù)據(jù)越多,結(jié)果就會越成熟可靠。傳感器、GPS系統(tǒng)和社交數(shù)據(jù)的新世界將帶來轉(zhuǎn)變運營的驚人新視角和機會。請不要錯過。
有些人會說,數(shù)據(jù)中蘊含的價值只能由專業(yè)人員來解讀。但是澤字節(jié)經(jīng)濟并不只是數(shù)據(jù)科學家和高級開發(fā)員的天下。
數(shù)據(jù)的價值在于將正確的信息在正確的時間交付到正確的人手中。未來將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務和客戶相關(guān),通過對數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競爭優(yōu)勢。
自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業(yè)應用。自那以后,我們利用技術(shù)來識別趨勢和制定戰(zhàn)略戰(zhàn)術(shù)的能力不斷呈指數(shù)級日臻完善。
今天,商業(yè)智能 (使用數(shù)據(jù)模式看清曲線周圍的一切) 穩(wěn)居 CXO 們的重中之重。在理想的世界中,IT 是巨大的杠桿,改變了公司的影響力,帶來競爭差異、節(jié)省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉(zhuǎn)化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創(chuàng)造市場。
大數(shù)據(jù)分析是商業(yè)智能的演進。當今,傳感器、GPS 系統(tǒng)、QR 碼、社交網(wǎng)絡等正在創(chuàng)建新的數(shù)據(jù)流。所有這些都可以得到發(fā)掘,正是這種真正廣度和深度的信息在創(chuàng)造不勝枚舉的機會。要使大數(shù)據(jù)言之有物,以便讓大中小企業(yè)都能通過更加貼近客戶的方式取得競爭優(yōu)勢,數(shù)據(jù)集成和數(shù)據(jù)管理是核心所在。
面臨從全球化到衰退威脅的風暴, IT部門領導需要在掘金大數(shù)據(jù)中打頭陣,新經(jīng)濟環(huán)境中的贏家將會是最好地理解哪些指標影響其大步前進的人。
大數(shù)據(jù)應用當然,企業(yè)仍將需要聰明的人員做出睿智的決策,了解他們面臨著什么,在充分利用的情況下,大數(shù)據(jù)可以賦予人們近乎超感官知覺的能力。Charles Duigg是《習慣的力量》一書的作者,他找出的一個黃金案例分析的例子是美國零售商 Target,其發(fā)現(xiàn)婦女在懷孕的中間三個月會經(jīng)常購買沒有氣味的護膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優(yōu)惠券。實際上,Target 知道一位婦女懷孕時,那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。
很明顯,在可以預見的將來,隱私將仍是重要的考量,但是歸根結(jié)底,用于了解行為的技術(shù)會為方方面面帶來雙贏,讓賣家了解買家,讓買家喜歡買到的東西。
再看一下作家兼科學家 Stephen Wolfram的例子,他收集有關(guān)自身習慣的數(shù)據(jù),以分析他的個人行為,預測事件在未來的可能性。
大數(shù)據(jù)將會放大我們的能力,了解看起來難以理解和隨機的事物。對其前途的了解提供了獲取嶄新知識和能力的機會,將改變您的企業(yè)運作的方式。
大數(shù)據(jù)的意義是由人類日益普及的網(wǎng)絡行為所伴生的,受到相關(guān)部門、企業(yè)采集的,蘊含數(shù)據(jù)生產(chǎn)者真實意圖、喜好的,非傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù) 。
2013年5月10日,阿里巴巴集團董事局主席馬云在淘寶十周年晚會上,將卸任阿里集團CEO的職位,并在晚會上做卸任前的演講,馬云說,大家還沒搞清PC時代的時候,移動互聯(lián)網(wǎng)來了,還沒搞清移動互聯(lián)網(wǎng)的時候,大數(shù)據(jù)時代來了。
大數(shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過程、企業(yè)和產(chǎn)業(yè),甚至競爭本身的性質(zhì)。把信息技術(shù)看作是輔助或服務性的工具已經(jīng)成為過時的觀念,管理者應該認識到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來創(chuàng)造有力而持久的競爭優(yōu)勢。無疑,信息技術(shù)正在改變著我們習以為常的經(jīng)營之道,一場關(guān)系到企業(yè)生死存亡的技術(shù)革命已經(jīng)到來。
借著大數(shù)據(jù)時代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動的軟件,主要是為工程建設節(jié)約資源提高效率。在這個過程里可以為世界節(jié)約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力于研究開始,可以看他們的目標不僅是為了節(jié)約了能源,更加關(guān)注智能化運營。通過跟蹤取暖器、空調(diào)、風扇以及燈光等積累下來的超大量數(shù)據(jù),捕捉如何杜絕能源浪費。“給我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界?!蔽④?/span>史密斯這樣說。而智能建筑正是他的團隊專注的事情。
隨著全球范圍內(nèi)個人電腦、智能手機等設備的普及和新興市場內(nèi)不斷增長的互聯(lián)網(wǎng)訪問量,以及監(jiān)控攝像機或智能電表等設備產(chǎn)生的數(shù)據(jù)爆增,使數(shù)字宇宙的規(guī)模在2012到2013兩年間翻了一番,達到驚人的2.8ZB。 IDC預計,到2020年,數(shù)字宇宙規(guī)模將超出預期,達到40ZB。
大數(shù)據(jù)應用40ZB究竟是個什么樣的概念呢?地球上所有海灘上的沙粒加在一起估計有七萬零五億億顆。40ZB相當于地球上所有海灘上的沙粒數(shù)量的57倍。也就是說到2020年,數(shù)字宇宙將每兩年翻一番;到2020年,人均數(shù)據(jù)量將達5,247GB。
該報告同時顯示,盡管個人和機器每天產(chǎn)生大量數(shù)據(jù),使數(shù)字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數(shù)據(jù)得到了分析。由此可見,大數(shù)據(jù)的應用幾乎是一塊未被開墾的處女地。
價值
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節(jié)化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習慣的產(chǎn)品和服務,并對產(chǎn)品和服務進行針對性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價值。大數(shù)據(jù)也日益顯現(xiàn)出對各個行業(yè)的推進力。
大數(shù)據(jù)時代來臨首先由數(shù)據(jù)豐富度決定的。社交網(wǎng)絡興起,大量的UGC(互聯(lián)網(wǎng)術(shù)語,全稱為User Generated Content,即用戶生成內(nèi)容的意思)內(nèi)容、音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量更大,加上移動互聯(lián)網(wǎng)能更準確、更快地收集用戶信息,比如位置、生活信息等數(shù)據(jù)。從數(shù)據(jù)量來說,已進入大數(shù)據(jù)時代,但硬件明顯已跟不上數(shù)據(jù)發(fā)展的腳步。
以往大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而提及“大數(shù)據(jù)”,通常是指解決問題的一種方法,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業(yè)模式。
雖然大數(shù)據(jù)在國內(nèi)還處于初級階段,但是商業(yè)價值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,定位角度不同,或側(cè)重數(shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。
未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標準化數(shù)據(jù)的價值最大化。因此,大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、交叉復用后獲取最大的數(shù)據(jù)價值。未來大數(shù)據(jù)將會如基礎設施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。據(jù)統(tǒng)計,大數(shù)據(jù)所形成的市場規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預計會上漲到530億美元。
存儲
隨著大數(shù)據(jù)應用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡以及計算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,我們很明顯的看到大數(shù)據(jù)分析應用需求正在影響著數(shù)據(jù)存儲基礎設施的發(fā)展。從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設計已經(jīng)無法滿足大數(shù)據(jù)應用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設計以適應這些新的要求。
針對大數(shù)據(jù)的世界領先品牌存儲企業(yè)有:IBM、EMC、LSISandForce 、 云創(chuàng)存儲、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等。
“大數(shù)據(jù)”的商業(yè)價值簡而言之,企業(yè)可以通過思考數(shù)據(jù)戰(zhàn)略的總體回報,來應對大數(shù)據(jù)的挑戰(zhàn),抓住大數(shù)據(jù)的機會。Informatica所指的‘數(shù)據(jù)回報率’,是為幫助高級IT和業(yè)務部門領導者進行大數(shù)據(jù)基本的戰(zhàn)術(shù)和戰(zhàn)略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高數(shù)據(jù)對于業(yè)務部門的價值,同時降低管理數(shù)據(jù)的成本,從數(shù)據(jù)得到的回報就會增加 -- 無論是用金錢衡量,還是更好的決策
數(shù)據(jù)回報率=數(shù)據(jù)價值/數(shù)據(jù)成本
在技術(shù)層面,數(shù)據(jù)回報率為數(shù)據(jù)集成、數(shù)據(jù)管理、商業(yè)智能和分析方面的投入提供了業(yè)務背景和案例。它還與解決業(yè)務的基礎有關(guān):掙錢、省錢、創(chuàng)造機會和管理風險。它涉及對效率的考慮,同時推動了改變游戲規(guī)則的洞察力。
實現(xiàn)回報
Informatica深知,對于很多企業(yè)來說,向數(shù)據(jù)回報模型的轉(zhuǎn)變不會一蹴而就。管理數(shù)據(jù)并將其成本降低的短期要求將會是首要焦點,同樣還需要打破障礙以了解數(shù)據(jù)。企業(yè)只有這時才可以開始從傳統(tǒng)和新興數(shù)據(jù)集獲得更多價值。Informatica可提供數(shù)據(jù)集成平臺和領導力,為企業(yè)提供全程幫助。
在大數(shù)據(jù)的世界中,最靈活和成功的企業(yè)將會是那些善用大機遇的公司。
意義
1.變革價值的力量
未來十年,決定中國是不是有大智慧的核心意義標準(那個”思想者”),就是國民幸福。一體現(xiàn)到民生上,通過大數(shù)據(jù)讓事情變得澄明,看我們在人與人關(guān)系上,做得是否比以前更有意義;二體現(xiàn)在生態(tài)上,看我們在天與人關(guān)系上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。
2.變革經(jīng)濟的力量
生產(chǎn)者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現(xiàn)不了價值;只有消費者認同的,才賣得出去,才實現(xiàn)得了價值。大數(shù)據(jù)幫助我們從消費者這個源頭識別意義,從而幫助生產(chǎn)者實現(xiàn)價值。這就是啟動內(nèi)需的原理。
3.變革組織的力量
隨著具有語義網(wǎng)特征的數(shù)據(jù)基礎設施和數(shù)據(jù)資源發(fā)展起來,組織的變革就越來越顯得不可避免。大數(shù)據(jù)將推動網(wǎng)絡結(jié)構(gòu)產(chǎn)生無組織的組織力量。最先反映這種結(jié)構(gòu)特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。 大數(shù)據(jù)之所以成為時代變革力量,在于它通過追隨意義而獲得智慧。
用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關(guān)注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
大數(shù)據(jù)與云計算的關(guān)系物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
有些例子包括網(wǎng)絡日志,RFID,傳感器網(wǎng)絡,社會網(wǎng)絡,社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。
弊端
雖然大數(shù)據(jù)的擁護者看到了使用大數(shù)據(jù)的巨大潛力,但也有隱私倡導者擔心,因為越來越多的人開始收集相關(guān)數(shù)據(jù),無論是他們是否會故意透露這些數(shù)據(jù)或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公布了一些具體的數(shù)字細節(jié)。
分析這些巨大的數(shù)據(jù)集會使我們的預測能力產(chǎn)生虛假的信息,將導致作出許多重大和有害的錯誤決定。此外,數(shù)據(jù)被強大的人或機構(gòu)濫用,自私的操縱議程達到他們想要的結(jié)果。
洛杉磯警察局和加利福尼亞大學合作利用大數(shù)據(jù)預測犯罪的發(fā)生。
google流感趨勢(Google Flu Trends)利用搜索關(guān)鍵詞預測禽流感的散布。
統(tǒng)計學家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預測2012美國選舉結(jié)果。
麻省理工學院利用手機定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
梅西百貨的實時定價機制,根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調(diào)價。
Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預測平臺。該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態(tài)的營銷活動。這項舉措減少了90%的預測模型構(gòu)建時間。SAP公司正在試圖收購KXEN?!癝AP想通過這次收購來扭轉(zhuǎn)其長久以來在預測分析方面的劣勢?!盠aney分析到。
PredPol Inc. 公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數(shù)據(jù)來預測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。
American Express(美國運通,AmEx)和商業(yè)智能。以往,AmEx只能實現(xiàn)事后諸葛式的報告和滯后的預測?!皞鹘y(tǒng)的BI已經(jīng)無法滿足業(yè)務發(fā)展的需要?!盠aney認為。于是,AmEx開始構(gòu)建真正能夠預測忠誠度的模型,基于歷史交易數(shù)據(jù),用115個變量來進行分析預測。該公司表示,對于澳大利亞將于之后四個月中流失的客戶,已經(jīng)能夠識別出其中的24%。
大數(shù)據(jù)實踐 基礎架構(gòu)先行Express Scripts Holding Co.的產(chǎn)品制造。該公司發(fā)現(xiàn)那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發(fā)了一個新產(chǎn)品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。
Infinity Property & Casualty Corp.的黑暗數(shù)據(jù)(dark data)。Laney對于黑暗數(shù)據(jù)的定義是,那些針對單一目標而收集的數(shù)據(jù),通常用過之后就被歸檔閑置,其真正價值未能被充分挖掘。在特定情況下,這些數(shù)據(jù)可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。
利用起互聯(lián)網(wǎng)大數(shù)據(jù),對消費者的喜好進行判定。商戶可以為消費者定制相應的獨特的個性服務,甚至可以在一些商品或者服務上匹配用戶心情等等。商家還可以根據(jù)大數(shù)據(jù)為消費者提供其可能會喜好的特色產(chǎn)品,活動,小而美的小眾商品等等 。
地產(chǎn)業(yè)的升級改造,具有令人興奮的商業(yè)前景。一個Shopping Mall的投資往往高達數(shù)十億元,設想一下,如果智能化升級能夠讓一個Shopping Mall的顧客數(shù)量和人均消費提升30%-50%,為此投入幾百萬元甚至上千萬元對于投資方來說非常劃算,那么僅僅針對國內(nèi)Shopping Mall的智能化升級就是一個千億元級別的市場。
經(jīng)典大數(shù)據(jù)案例-沃爾瑪經(jīng)典營銷:啤酒與尿布
“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)?/span>超市管理人員分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學及計算機算法角度提 出了商品關(guān)聯(lián)關(guān)系的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
IBM戰(zhàn)略
IBM的大數(shù)據(jù)戰(zhàn)略以其在2012年5月發(fā)布智慧分析洞察“3A5步”動態(tài)路線圖作為基礎。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎上“獲取洞察”(Anticipate),進而采取行動(Act),優(yōu)化決策策劃能夠救業(yè)務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業(yè)務結(jié)果中獲得反饋,改善基于信息的決策流程,從而實現(xiàn)“轉(zhuǎn)型”(Transform)。
大數(shù)據(jù)基于“3A5步”動態(tài)路線圖,IBM提出了“大數(shù)據(jù)平臺”架構(gòu)。該平臺的四大核心能力包括Hadoop系統(tǒng)、流計算(StreamComputing)、數(shù)據(jù)倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。
在大數(shù)據(jù)處理領域,IBM于2012年10月推出了IBMPureSystems專家集成系統(tǒng)的新成員——IBM PureData系統(tǒng)。這是IBM在數(shù)據(jù)處理領域發(fā)布的首個集成系統(tǒng)產(chǎn)品系列。PureData系統(tǒng)具體包含三款產(chǎn)品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用于OLTP(聯(lián)機事務處理)、OLAP(聯(lián)機分析處理)和大數(shù)據(jù)分析操作。與此前發(fā)布的IBMPureSystems系列產(chǎn)品一樣,IBM PureData系統(tǒng)提供內(nèi)置的專業(yè)知識、源于設計的集成,以及在其整個生命周期中的簡化體驗。
斯隆數(shù)字巡天收集在其最初的幾個星期,就比在天文學的歷史上之前的2000年的收集了更多的數(shù)據(jù)。自那時以來,它已經(jīng)積累了140兆兆 字節(jié)的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將于2016年在網(wǎng)上將獲得數(shù)據(jù)公布,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量數(shù)據(jù)庫估計超過2.5 PB相當于美國國會圖書館的書籍的167倍 。FACEBOOK從它的用戶群獲得并處理400億張照片。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內(nèi)實現(xiàn)。
“大數(shù)據(jù)”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個行業(yè)自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業(yè)務的快速。
大數(shù)據(jù)已經(jīng)出現(xiàn),因為我們生活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯(lián)網(wǎng)?;旧希藗儽纫酝魏螘r候都與數(shù)據(jù)或信息交互。 1990年至2005年,全球超過1億人進入中產(chǎn)階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的信息增長。思科公司預計,到2013年,在互聯(lián)網(wǎng)上流動的交通量將達到每年667艾字節(jié)。
大數(shù)據(jù),其影響除了經(jīng)濟方面的,它同時也能在政治、文化等方面產(chǎn)生深遠的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當下“大社會”的集中體現(xiàn),三分技術(shù),七分數(shù)據(jù),得數(shù)據(jù)者得天下。
大數(shù)據(jù)實踐國內(nèi)網(wǎng)絡廣告投放正從傳統(tǒng)的面向群體的營銷轉(zhuǎn)向個性化營銷,從流量購買轉(zhuǎn)向人群購買。雖然市場大環(huán)境不好,但是具備數(shù)據(jù)挖掘能力的公司卻倍受資本青睞。
163大數(shù)據(jù)是一個很好的視角和工具。從資本角度來看,什么樣的公司有價值,什么樣的公司沒有價值,從其擁有的數(shù)據(jù)規(guī)模、數(shù)據(jù)的活性和這家公司能運用、解釋數(shù)據(jù)的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關(guān)注的點。
移動互聯(lián)網(wǎng)與社交網(wǎng)絡興起將大數(shù)據(jù)帶入新的征程,互聯(lián)網(wǎng)營銷將在行為分析的基礎上向個性化時代過渡。創(chuàng)業(yè)公司應用“大數(shù)據(jù)”告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應該發(fā)表的正確內(nèi)容等,這正好切中了廣告商的需求。
社交網(wǎng)絡產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù),同時社交網(wǎng)絡也記錄了用戶群體的情緒,通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。
實際上,將用戶群精準細分,直接找到要找的用戶正是社交內(nèi)容背后數(shù)據(jù)挖掘所帶來的結(jié)果。而通過各種算法實現(xiàn)的數(shù)據(jù)信息交易,正是張文浩為自己的社交數(shù)據(jù)挖掘公司設計的盈利模式。這家僅僅五六個人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動迎合用戶需求,前提就是要找到這部分人群。
在移動互聯(lián)網(wǎng)領域,公司從開發(fā)者角度找到數(shù)據(jù)挖掘的方向,通過提供免費的技術(shù)服務,幫助開發(fā)者了解應用狀況。
國內(nèi)的企業(yè)跟美國比較,有一個很重要的特性就是人口基數(shù)的區(qū)別,中國消費群體所產(chǎn)生的這種數(shù)據(jù)量,與國外相比不可同日而語。
伴隨著各種隨身設備、物聯(lián)網(wǎng)和云計算云存儲等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄。在移動互聯(lián)網(wǎng)的核心網(wǎng)絡節(jié)點是人,不再是網(wǎng)頁。數(shù)據(jù)大爆炸下,怎樣挖掘這些數(shù)據(jù),也面臨著技術(shù)與商業(yè)的雙重挑戰(zhàn)。
首先,如何將數(shù)據(jù)信息與產(chǎn)品和人相結(jié)合,達到產(chǎn)品或服務優(yōu)化是大數(shù)據(jù)商業(yè)模式延展上的挑戰(zhàn)之一。
其次,巧婦難為無米之炊,大數(shù)據(jù)的關(guān)鍵還是在于誰先擁有數(shù)據(jù)。
從市場角度來看,大數(shù)據(jù)還面臨其他因素的挑戰(zhàn)。
產(chǎn)業(yè)界對于大數(shù)據(jù)的熱情持續(xù)升溫的同時,資本也敏銳地發(fā)現(xiàn)了這一趨勢,并開始關(guān)注數(shù)據(jù)挖掘和服務類公司。
最早提出“大數(shù)據(jù)”時代已經(jīng)到來的機構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
大數(shù)據(jù)時代:如何節(jié)省存儲成本“麥肯錫的報告發(fā)布后,大數(shù)據(jù)迅速成為了計算機行業(yè)爭相傳誦的熱門概念,也引起了金融界的高度關(guān)注?!彪S著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識?!叭绻f云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個人生活服務,則是大數(shù)據(jù)的核心議題,也是云計算內(nèi)在的靈魂和必然的升級方向?!?/span>
事實上,全球互聯(lián)網(wǎng)巨頭都已意識到了“大數(shù)據(jù)”時代,數(shù)據(jù)的重要意義。包括EMC、惠普、IBM、微軟在內(nèi)的全球IT 巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實現(xiàn)技術(shù)整合,亦可見其對“大數(shù)據(jù)”的重視。
“大數(shù)據(jù)”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。
大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。云計算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,而數(shù)據(jù)才是真正有價值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營交易信息、物聯(lián)網(wǎng)世界中的商品物流信息,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠遠超越現(xiàn)有企業(yè)IT架構(gòu)和基礎設施的承載能力,實時性要求也將大大超越現(xiàn)有的計算能力。如何盤活這些數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個人生活服務,是大數(shù)據(jù)的核心議題,也是云計算內(nèi)在的靈魂和必然的升級方向。
大數(shù)據(jù)時代網(wǎng)民和消費者的界限正在消弭,企業(yè)的疆界變得模糊,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務模式,甚至重構(gòu)其文化和組織。因此,大數(shù)據(jù)對國家治理模式、對企業(yè)的決策、組織和業(yè)務流程、對個人生活方式都將產(chǎn)生巨大的影響。如果不能利用大數(shù)據(jù)更加貼近消費者、深刻理解需求、高效分析信息并作出預判,所有傳統(tǒng)的產(chǎn)品公司都只能淪為新型用戶平臺級公司的附庸,其衰落不是管理能扭轉(zhuǎn)的。
大數(shù)據(jù)時代將引發(fā)新一輪信息化投資和建設熱潮。據(jù)IDC預測,到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,而麥肯錫則預測未來大數(shù)據(jù)產(chǎn)品在三大行業(yè)的應用就將產(chǎn)生7千億美元的潛在市場,未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達到1.57萬億元,給IT行業(yè)開拓了一個新的黃金時代。
當前還處在大數(shù)據(jù)時代的前夜,預計今明兩年將是大數(shù)據(jù)市場的培育期,2014年以后大數(shù)據(jù)產(chǎn)品將會形成業(yè)績。
大數(shù)據(jù)給城市帶來的重大變革宋清輝:大數(shù)據(jù)正改變我們的未來
大數(shù)據(jù)時代,與其讓對你感興趣的人去搜尋你的隱私,就不如自曝隱私。當我在全球不同城市演講結(jié)束交換名片的時候,基本從來不發(fā)載有自己名字、電話、地址等基本信息的名片,因為那根本用不著,也不符合大數(shù)據(jù)時代的精髓。所以我的名片簡單到只有一個名字和幾個二維碼,只要百度一下或者掃一掃二維碼,關(guān)于個人的信息別人就會一覽無余,包括在寫什么文章、在哪里演講等信息……
不想說一個人若拒絕大數(shù)據(jù)就去失去生命這樣沉重的話題,但大數(shù)據(jù)確實在深刻改變著你和我的未來。
2015年5月26日,中共貴州省委副書記、省政府省長陳敏爾在峰會上透露,國家在制定大數(shù)據(jù)國家戰(zhàn)略及行動計劃。貴州省將抓住和用好戰(zhàn)略機遇,深入挖掘大數(shù)據(jù)的商業(yè)價值、管理價值和社會價值。[2]
工信部信息服務處處長李琰在論壇期間則表示,工信部將抓緊研究制定大數(shù)據(jù)發(fā)展的指導性文件。下一步,工信部將和有關(guān)部門加強協(xié)同,積極營造良好的環(huán)境,推動應用和產(chǎn)業(yè)相互促進、良性發(fā)展,為我國大數(shù)據(jù)產(chǎn)業(yè)和大數(shù)據(jù)創(chuàng)新發(fā)展探索積累經(jīng)驗。
大數(shù)據(jù)時代來了!不得不承認如今數(shù)據(jù)量的激增越來越明顯,各種各樣的數(shù)據(jù)鋪天蓋地的砸下來,企業(yè)選擇相應工具來存儲、分析與處理它們。從Excel、BI工具,到現(xiàn)在最新的可視化數(shù)據(jù)分析工具大數(shù)據(jù)魔鏡,數(shù)據(jù)分析軟件進步越來越快,免費的大數(shù)據(jù)魔鏡已經(jīng)可以達到500多種可視化效果和實現(xiàn)數(shù)據(jù)共享。那么在大數(shù)據(jù)時代中,都新出現(xiàn)了哪些數(shù)據(jù)類型呢?
1)過于一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料?,F(xiàn)在這些數(shù)據(jù)不但數(shù)據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。舉個例子,F(xiàn)acebook每天有18億張照片上傳或被傳播,形成了海量的數(shù)據(jù)。[3]
2)移動互聯(lián)網(wǎng)出現(xiàn)后,移動設備的很多傳感器收集了大量的用戶點擊行為數(shù)據(jù),已知IPHONE有3個傳感器,三星有6個傳感器。它們每天產(chǎn)生了大量的點擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。
3)電子地圖如高德、百度、Google地圖出現(xiàn)后,其產(chǎn)生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個屬性或一個度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行為、一種習慣,這些流數(shù)據(jù)經(jīng)頻率分析后會產(chǎn)生巨大的商業(yè)價值。基于地圖產(chǎn)生的數(shù)據(jù)流是一種新型的數(shù)據(jù)類型,在過去是不存在的。
4)進入了社交網(wǎng)絡的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù),這些數(shù)據(jù)是過去未曾出現(xiàn)的。其揭示了人們行為特點和生活習慣。
5)電商戶崛起產(chǎn)來了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行為,物流運輸、購買喜好,點擊順序,評價行為等,其是信息流和資金流數(shù)據(jù)。
6)傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數(shù)據(jù)。單位存儲價格的下降也為存儲這些數(shù)據(jù)提供了經(jīng)濟上的可能。