對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注?!?a class="ed_inner_link" style="text-decoration:none;color:#3366cc;" target="_blank">著云臺》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進(jìn)率1024(2的十次方)來計(jì)算:
8 bit = 1 Byte
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
1887–1890年
赫爾曼·霍爾瑞斯美國統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯為了統(tǒng)計(jì)1890年的人口普查數(shù)據(jù)發(fā)明了一臺電動(dòng)器來讀取卡片上的洞數(shù),該設(shè)備讓美國用一年時(shí)間就完成了原本耗時(shí)8年的人口普查活動(dòng),由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀(jì)元。
1935–1937年
美國總統(tǒng)富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項(xiàng)數(shù)據(jù)收集項(xiàng)目,IBM最終贏得競標(biāo),即需要整理美國的2600萬個(gè)員工和300萬個(gè)雇主的記錄。共和黨總統(tǒng)候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調(diào)用大規(guī)模的現(xiàn)場調(diào)查人員去核實(shí)那些信息不完整的人員記錄?!?
1943年
一家英國工廠為了破譯二戰(zhàn)期間的納粹密碼,讓工程師開發(fā)了系列開創(chuàng)性的能進(jìn)行大規(guī)模數(shù)據(jù)處理的機(jī)器,并使用了第一臺可編程的電子計(jì)算機(jī)進(jìn)行運(yùn)算。該計(jì)算機(jī)被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費(fèi)數(shù)周時(shí)間才能完成的工作量壓縮到了幾個(gè)小時(shí)。破譯德國部隊(duì)前方陣地的信息以后,幫助盟軍成功登陸了諾曼底。
1997年
美國宇航局研究員邁克爾·考克斯和大衛(wèi)·埃爾斯沃斯首次使用“大數(shù)據(jù)”這一術(shù)語來描述20世紀(jì)90年代的挑戰(zhàn):超級計(jì)算機(jī)生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機(jī)周圍的氣流——是不能被處理和可視化的。數(shù)據(jù)集通常之大,超出了主存儲器、本地磁盤,甚至遠(yuǎn)程磁盤的承載能力?!彼麄兎Q之為“大數(shù)據(jù)問題?!?
2002年
在9/11襲擊后,美國政府為阻止恐怖主義已經(jīng)涉足大規(guī)模數(shù)據(jù)挖掘。前國家安全顧問約翰·波因德克斯特領(lǐng)導(dǎo)國防部整合現(xiàn)有政府的數(shù)據(jù)集,組建一個(gè)用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數(shù)據(jù)庫。一年后國會因擔(dān)憂公民自由權(quán)而停止了這一項(xiàng)目。
2004年
9/11委員會呼吁反恐機(jī)構(gòu)應(yīng)統(tǒng)一組建“一個(gè)基于網(wǎng)絡(luò)的信息共享系統(tǒng)”,以便能快處理應(yīng)接不暇的數(shù)據(jù)。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報(bào)。與此同時(shí),零售商積累關(guān)于客戶購物和個(gè)人習(xí)慣的大量數(shù)據(jù),沃爾瑪自吹已擁有一個(gè)容量為460字節(jié)的緩存器——比當(dāng)時(shí)互聯(lián)網(wǎng)上的數(shù)據(jù)量還要多一倍。
2007–2008年
隨著社交網(wǎng)絡(luò)的激增,技術(shù)博客和專業(yè)人士為“大數(shù)據(jù)” 概念注入新的生機(jī)?!爱?dāng)前世界范圍內(nèi)已有的一些其他工具將被大量數(shù)據(jù)和應(yīng)用算法所取代”?!?a class="ed_inner_link" style="text-decoration:none;color:#3366cc;" target="_blank">連線》的克里斯·安德森認(rèn)為當(dāng)時(shí)處于一個(gè)“理論終結(jié)時(shí)代”。一些政府機(jī)構(gòu)和美國的頂尖計(jì)算機(jī)科學(xué)家聲稱,“應(yīng)該深入?yún)⑴c大數(shù)據(jù)計(jì)算的開發(fā)和部署工作,因?yàn)樗鼘⒅苯佑欣谠S多任務(wù)的實(shí)現(xiàn)。”
2009年1月
印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進(jìn)行掃描,并為每人分配12位的數(shù)字ID號碼,將數(shù)據(jù)匯集到世界最大的生物識別數(shù)據(jù)庫中。官員們說它將會起到提高政府的服務(wù)效率和減少腐敗行為的作用,但批評者擔(dān)心政府會針對個(gè)別人進(jìn)行剖面分析并與分享這些人的私密生活細(xì)節(jié)。
2009年5月
大數(shù)據(jù)或成反恐分析利器美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov網(wǎng)站作為政府開放數(shù)據(jù)計(jì)劃的部分舉措。該網(wǎng)站的超過4.45萬量數(shù)據(jù)集被用于保證一些網(wǎng)站和智能手機(jī)應(yīng)用程序來跟蹤從航班到產(chǎn)品召回再到特定區(qū)域內(nèi)失業(yè)率的信息,這一行動(dòng)激發(fā)了從肯尼亞到英國范圍內(nèi)的政府們相繼推出類似舉措。
2009年7月
應(yīng)對全球金融危機(jī),聯(lián)合國秘書長潘基文承諾創(chuàng)建警報(bào)系統(tǒng),抓住“實(shí)時(shí)數(shù)據(jù)帶給貧窮國家經(jīng)濟(jì)危機(jī)的影響” 。聯(lián)合國全球脈沖項(xiàng)目已研究了對如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測從螺旋價(jià)格到疾病爆發(fā)之類的問題。
2011年2月
掃描2億年的頁面信息,或4兆兆字節(jié)磁盤存儲,只需幾秒即可完成。IBM的沃森計(jì)算機(jī)系統(tǒng)在智力競賽節(jié)目《危險(xiǎn)邊緣》中打敗了兩名人類挑戰(zhàn)者。后來紐約時(shí)報(bào)配音這一刻為一個(gè)“大數(shù)據(jù)計(jì)算的勝利?!?
2012年3月
美國政府報(bào)告要求每個(gè)聯(lián)邦機(jī)構(gòu)都要有一個(gè)“大數(shù)據(jù)”的策略,作為回應(yīng),奧巴馬政府宣布一項(xiàng)耗資2億美元的大數(shù)據(jù)研究與發(fā)展項(xiàng)目。國家衛(wèi)生研究院將一套人類基因組項(xiàng)目的數(shù)據(jù)集存放在亞馬遜的計(jì)算機(jī)云內(nèi),同時(shí)國防部也承諾要開發(fā)出可“從經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)”的“自主式”防御系統(tǒng)。中央情報(bào)局局長戴維·彼得雷烏斯將軍在發(fā)帖討論阿拉伯之春機(jī)構(gòu)通過云計(jì)算收集和分析全球社會媒體信息之事時(shí),不禁驚嘆我們已經(jīng)被自卸卡車倒進(jìn)了“‘?dāng)?shù)字塵土”中。
2012年7月
美國國務(wù)卿希拉里·克林頓宣布了一個(gè)名為“數(shù)據(jù)2X”的公私合營企業(yè)用來收集統(tǒng)計(jì)世界各地的婦女和女童在經(jīng)濟(jì)、政治和社會地位方面的信息?!皵?shù)據(jù)不只是測量過程——它能給予我們啟發(fā),”她解釋說?!耙坏┤藗冮_始對某個(gè)問題實(shí)施測量時(shí),就更傾向于采取行動(dòng)來解決它們,因?yàn)闆]有人愿意排到名單的最低端去?!弊尨髷?shù)據(jù)開始競賽吧。
HadoopMapReduce
思維模式轉(zhuǎn)變的催化劑是大量新技術(shù)的誕生,它們能夠處理大數(shù)據(jù)分析所帶來的3個(gè)V的挑戰(zhàn)。扎根于開源社區(qū),Hadoop已經(jīng)是目前大數(shù)據(jù)平臺中應(yīng)用率最高的技術(shù),特別是針對諸如文本、社交媒體訂閱以及視頻等非結(jié)構(gòu)化數(shù)據(jù)。除分布式文件系統(tǒng)之外,伴隨Hadoop一同出現(xiàn)的還有進(jìn)行大數(shù)據(jù)集處理MapReduce架構(gòu)。根據(jù)權(quán)威報(bào)告顯示,許多企業(yè)都開始使用或者評估Hadoop技術(shù)來作為其大數(shù)據(jù)平臺的標(biāo)準(zhǔn)。
我們生活的時(shí)代,相對穩(wěn)定的數(shù)據(jù)庫市場中還在出現(xiàn)一些新的技術(shù),而且在未來幾年,它們會發(fā)揮作用。事實(shí)上,NoSQL數(shù)據(jù)庫在一個(gè)廣義上派系基礎(chǔ)上,其本身就包含了幾種技術(shù)??傮w而言,他們關(guān)注關(guān)系型數(shù)據(jù)庫引擎的限制,如索引、流媒體和高訪問量的網(wǎng)站服務(wù)。在這些領(lǐng)域,相較關(guān)系型數(shù)據(jù)庫引擎,NoSQL的效率明顯更高。
內(nèi)存分析
在Gartner公司評選的2012年十大戰(zhàn)略技術(shù)中,內(nèi)存分析在個(gè)人消費(fèi)電子設(shè)備以及其他嵌入式設(shè)備中的應(yīng)用將會得到快速的發(fā)展。隨著越來越多的價(jià)格低廉的內(nèi)存用到數(shù)據(jù)中心中,如何利用這一優(yōu)勢對軟件進(jìn)行最大限度的優(yōu)化成為關(guān)鍵的問題。內(nèi)存分析以其實(shí)時(shí)、高性能的特性,成為大數(shù)據(jù)分析時(shí)代下的“新寵兒”。如何讓大數(shù)據(jù)轉(zhuǎn)化為最佳的洞察力,也許內(nèi)存分析就是答案。大數(shù)據(jù)背景下,用戶以及IT提供商應(yīng)該將其視為長遠(yuǎn)發(fā)展的技術(shù)趨勢。
集成設(shè)備
隨著數(shù)據(jù)倉庫設(shè)備(Data Warehouse Appliance)的出現(xiàn),商業(yè)智能以及大數(shù)據(jù)分析的潛能也被激發(fā)出來,許多企業(yè)將利用數(shù)據(jù)倉庫新技術(shù)的優(yōu)勢提升自身競爭力。集成設(shè)備將企業(yè)的數(shù)據(jù)倉庫硬件軟件整合在一起,提升查詢性能、擴(kuò)充存儲空間并獲得更多的分析功能,并能夠提供同傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)一樣的優(yōu)勢。在大數(shù)據(jù)時(shí)代,集成設(shè)備將成為企業(yè)應(yīng)對數(shù)據(jù)挑戰(zhàn)的一個(gè)重要利器。
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價(jià)值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個(gè)過程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
大數(shù)據(jù)大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!?a class="ed_inner_link" style="text-decoration:none;color:#3366cc;" target="_blank">計(jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個(gè)重要特性,對當(dāng)前的主流實(shí)現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢及不足,同時(shí)也對各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對未來研究做了展望。
大數(shù)據(jù)的4個(gè)“V”,或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)最核心的價(jià)值就是在于對于海量數(shù)據(jù)進(jìn)行存儲和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。
大數(shù)據(jù)當(dāng)前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個(gè)生態(tài)圈。
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb
商用大數(shù)據(jù)生態(tài)圈:
1、一體機(jī)數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。
大數(shù)據(jù)定義:將海量的來自前端的數(shù)據(jù)快速導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫 或者分布式存儲集群,利用分布式技術(shù)來對存儲于其內(nèi)的集中的海量數(shù)據(jù) 進(jìn)行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求。
特點(diǎn)和挑戰(zhàn):導(dǎo)入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請求多。
使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和Oracle Exadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實(shí)時(shí)分析。
我們需要的是以數(shù)據(jù)為中心的SOA還是以SOA為中心的數(shù)據(jù)?答案取決于如何處理的SOA-數(shù)據(jù)關(guān)系的三個(gè)不同模型來管理大數(shù)據(jù)、云數(shù)據(jù)和數(shù)據(jù)層次結(jié)構(gòu)。在越來越多的虛擬資源中,將這些模型之間所有類型的數(shù)據(jù)進(jìn)行最優(yōu)擬合是SOA所面臨的巨大挑戰(zhàn)之一。本文詳細(xì)介紹了每個(gè)SOA模型管理數(shù)據(jù)的優(yōu)點(diǎn)、選擇和選項(xiàng)。
SOA的三個(gè)數(shù)據(jù)中心模型分別是數(shù)據(jù)即服務(wù)(DaaS)模型、物理層次結(jié)構(gòu)模型和架構(gòu)組件模型。DaaS數(shù)據(jù)存取的模型描述了數(shù)據(jù)是如何提供給SOA組件的。物理模型描述了數(shù)據(jù)是如何存儲的以及存儲的層次圖是如何傳送到SOA數(shù)據(jù)存儲器上的。最后,架構(gòu)模型描述了數(shù)據(jù)、數(shù)據(jù)管理服務(wù)和SOA組件之間的關(guān)系。
SOA和數(shù)據(jù)企業(yè)的例子
也許以極限情況為開始是理解SOA數(shù)據(jù)問題的最好方式:一個(gè)企業(yè)的數(shù)據(jù)需求完全可以由關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)中的條款來表示。這樣一個(gè)企業(yè)可能會直接采用數(shù)據(jù)庫設(shè)備或者將專用的數(shù)據(jù)庫服務(wù)器和現(xiàn)有的查詢服務(wù)連接到SOA組件(查詢即服務(wù),或QaaS)上。這種設(shè)計(jì)理念之前已經(jīng)被人們所接受。該設(shè)計(jì)之所以成功是因?yàn)樗胶饬松鲜鋈齻€(gè)模型之間的關(guān)系。QaaS服務(wù)模型不是機(jī)械地連接到存儲器上;而是通過一個(gè)單一的架構(gòu)—— RDBMS(關(guān)系型數(shù)據(jù)庫管理系統(tǒng))。數(shù)據(jù)去重和完整性便于管理單一的架構(gòu)。
通過大數(shù)據(jù)的例子可以更好地理解為什么這個(gè)簡單的方法卻不能在更大的范圍內(nèi)處理數(shù)據(jù)。多數(shù)的大數(shù)據(jù)是非關(guān)系型的、非交易型的、非結(jié)構(gòu)化的甚至是未更新的數(shù)據(jù)。由于缺乏數(shù)據(jù)結(jié)構(gòu)因此將其抽象成一個(gè)查詢服務(wù)并非易事,由于數(shù)據(jù)有多個(gè)來源和形式因此很少按序存儲,并且定義基礎(chǔ)數(shù)據(jù)的完整性和去重過程是有一些規(guī)則的。當(dāng)作為大數(shù)據(jù)引入到SOA的應(yīng)用程序中時(shí),關(guān)鍵是要定義三種模型中的最后一種模型,SOA數(shù)據(jù)關(guān)系中的架構(gòu)模型。有兩種選擇:水平方向和垂直方向。
大數(shù)據(jù):“人工特征工程+線性模型”的盡頭SOA和各類數(shù)據(jù)模型
在水平集成數(shù)據(jù)模型中,數(shù)據(jù)收集隱蔽于一套抽象的數(shù)據(jù)服務(wù)器,該服務(wù)器有一個(gè)或多個(gè)接口連接到應(yīng)用程序上,也提供所有的完整性和數(shù)據(jù)管理功能。組件雖不能直接訪問數(shù)據(jù),但作為一種即服務(wù)形式,就像他們在簡單情況下的企業(yè),其數(shù)據(jù)的要求是純粹的RDBMS模型。應(yīng)用程序組件基本上脫離了RDBMS與大數(shù)據(jù)之間數(shù)據(jù)管理的差異。盡管由于上述原因這種方法不能創(chuàng)建簡單的RDBMS查詢模型,但是它至少復(fù)制了我們上面提到的簡單的RDBMS模型。
垂直集成的數(shù)據(jù)模型以更多應(yīng)用程序特定的方式連接到數(shù)據(jù)服務(wù)上,該方式使得客戶關(guān)系管理、企業(yè)資源規(guī)劃或動(dòng)態(tài)數(shù)據(jù)認(rèn)證的應(yīng)用程序數(shù)據(jù)很大程度在服務(wù)水平上相互分離,這種分離直接涉及到數(shù)據(jù)基礎(chǔ)設(shè)施。在某些情況下,這些應(yīng)用程序或許有可以直接訪問存儲/數(shù)據(jù)服務(wù)的SOA組件。為了提供更多統(tǒng)一的數(shù)據(jù)完整性和管理,管理服務(wù)器可以作為SOA組件來操作各種數(shù)據(jù)庫系統(tǒng),以數(shù)據(jù)庫特定的方式執(zhí)行常見的任務(wù),如去重和完整性檢查。這種方法更容易適應(yīng)于遺留應(yīng)用和數(shù)據(jù)結(jié)構(gòu), 但它在問數(shù)據(jù)何訪方式上會破壞SOA即服務(wù)原則,也可能產(chǎn)生數(shù)據(jù)管理的一致性問題。
SOA和水平數(shù)據(jù)模型
毫無疑問水平模型更符合SOA原則,因?yàn)樗鼜氐椎貜腟OA組件中抽象出了數(shù)據(jù)服務(wù)。不過,為了使其有效,有必要對非關(guān)系型數(shù)據(jù)庫進(jìn)行抽象定義和處理低效率與抽象有關(guān)的流程——SOA架構(gòu)師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。
水平的SOA數(shù)據(jù)策略已經(jīng)開始應(yīng)用于適用大數(shù)據(jù)的抽象數(shù)據(jù)。解決這個(gè)問題最常見的方法是MapReduce,可以應(yīng)用于Hadoop形式的云構(gòu)架。Hadoop以及類似的方法可以分發(fā)、管理和訪問數(shù)據(jù),然后集中查詢這一分布式信息的相關(guān)結(jié)果。實(shí)際上,SOA組件應(yīng)將MapReduce和類似數(shù)據(jù)分析功能作為一種查詢功能應(yīng)用。
效率問題
效率問題較為復(fù)雜。因?yàn)樗?a class="ed_inner_link" style="text-decoration:none;color:#3366cc;" target="_blank">數(shù)據(jù)庫模型可能是通過類似大多數(shù)SOA流程的信息服務(wù)總線來完成的,一個(gè)重要的步驟是要確保與該編排相關(guān)的開銷額度保持在最低程度。這可以幫助減少與SOA相關(guān)的數(shù)據(jù)訪問開銷,但它不能克服存儲系統(tǒng)本身的問題。因?yàn)檫@些存儲系統(tǒng)已經(jīng)通過水平模型脫離了SOA組件,很容易被忽略與延遲和數(shù)據(jù)傳輸量相關(guān)的問題,特別地,如果數(shù)據(jù)庫是云分布的,那么使用他們就會產(chǎn)生可變的網(wǎng)絡(luò)延遲。
上述問題的一個(gè)解決方案是現(xiàn)代分層存儲模式。數(shù)據(jù)庫不是磁盤,而是一組相互連接的高速緩存點(diǎn),其存儲于本地內(nèi)存中,也可能轉(zhuǎn)向固態(tài)硬盤,然后到本地磁盤,最后到云存儲。緩存算法處理這些緩存點(diǎn)之間的活動(dòng),從而來平衡存儲成本(同時(shí)也是平衡同步地更新成本)和性能。
大數(shù)據(jù)應(yīng)用領(lǐng)域對于大數(shù)據(jù),它也是經(jīng)常可以創(chuàng)建適用于大多數(shù)分析的匯總數(shù)據(jù)。例如一個(gè)計(jì)算不同地點(diǎn)車輛數(shù)量的交通遙測應(yīng)用。這種方法可以產(chǎn)生大量的數(shù)據(jù),但是如果匯總數(shù)據(jù)最后一分鐘還存儲在內(nèi)存中,最后一小時(shí)存儲在閃存中,最后一天存在磁盤上,那么控制應(yīng)用程序所需的實(shí)際時(shí)間可以通過快速訪問資源得到滿足,然而假設(shè)分析時(shí)我們可以使用一些更便宜、更慢的應(yīng)用程序是會怎樣。
SOA都是抽象的,但當(dāng)抽象隱藏了底層影響性能和響應(yīng)時(shí)間的復(fù)雜性時(shí),這種抽象的危險(xiǎn)程度會提高。數(shù)據(jù)訪問也是這樣的,因此,SOA架構(gòu)師需要認(rèn)真地考慮抽象與性能之間的平衡關(guān)系,并為其特定的業(yè)務(wù)需求優(yōu)化它。
Hadoop旨在通過一個(gè)高度可擴(kuò)展的分布式批量處理系統(tǒng),對大型數(shù)據(jù)集進(jìn)行掃描,以產(chǎn)生其結(jié)果。Hadoop項(xiàng)目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。
Hadoop平臺對于操作非常大型的數(shù)據(jù)集而言可以說是一個(gè)強(qiáng)大的工具。為了抽象Hadoop編程模型的一些復(fù)雜性,已經(jīng)出現(xiàn)了多個(gè)在Hadoop之上運(yùn)行的應(yīng)用開發(fā)語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數(shù),并使用稱為Hadoop Streaming(簡寫為Streaming)的API調(diào)用它們。
流定義
從技術(shù)角度而言,流是通過邊緣連接的節(jié)點(diǎn)圖。圖中的每個(gè)節(jié)點(diǎn)都是“運(yùn)算符”或“適配器”,均能夠在某種程度上處理流內(nèi)的數(shù)據(jù)。節(jié)點(diǎn)可以不包含輸入和輸出,也可以包含多個(gè)輸入和輸出。一個(gè)節(jié)點(diǎn)的輸出與另外一個(gè)或多個(gè)節(jié)點(diǎn)的輸入相互連接。圖形的邊緣將這些節(jié)點(diǎn)緊密聯(lián)系在一起,表示在運(yùn)算符之間移動(dòng)的數(shù)據(jù)流。
右圖一個(gè)簡單的流圖,它可以從文件中讀取數(shù)據(jù),將數(shù)據(jù)發(fā)送到名為Functor的運(yùn)算符(此運(yùn)算符能夠以某種編程方式轉(zhuǎn)換所傳入的數(shù)據(jù)),然后將這些數(shù)據(jù)傳入另一個(gè)運(yùn)算符。在此圖片中,流數(shù)據(jù)被傳送至Split運(yùn)算符,而后又將數(shù)據(jù)傳入文件接收器或數(shù)據(jù)庫(具體情況視Split運(yùn)算符的內(nèi)部狀況而定)。
利用Apache Hadoop等開源項(xiàng)目,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數(shù)據(jù)創(chuàng)造價(jià)值。
大數(shù)據(jù)應(yīng)用領(lǐng)域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,數(shù)據(jù)將會流過有能力操控?cái)?shù)據(jù)流(每秒鐘可能包含數(shù)百萬個(gè)事件)的運(yùn)算符,然后對這些數(shù)據(jù)執(zhí)行動(dòng)態(tài)分析。這項(xiàng)分析可觸發(fā)大量事件,使企業(yè)利用即時(shí)的智能實(shí)時(shí)采取行動(dòng),最終改善業(yè)務(wù)成果。
當(dāng)數(shù)據(jù)流過這些分析組件后,Streams將提供運(yùn)算符將數(shù)據(jù)存儲至各個(gè)位置,或者如果經(jīng)過動(dòng)態(tài)分析某些數(shù)據(jù)被視為毫無價(jià)值,則會丟棄這些數(shù)據(jù)。你可能會認(rèn)為Streams與復(fù)雜事件處理(CEP) 系統(tǒng)非相似,不過Streams的設(shè)計(jì)可擴(kuò)展性更高,并且支持的數(shù)據(jù)流量也比其他系統(tǒng)多得多。此外,Streams還具備更高的企業(yè)級特性,包括高可用性、豐富的應(yīng)用程序開發(fā)工具包和高級調(diào)度。
出于這樣的目的,許多組織開始啟動(dòng)自己的大數(shù)據(jù)治理計(jì)劃。所謂大數(shù)據(jù)治理,指的是制定策略來協(xié)調(diào)多個(gè)職能部門的目標(biāo),從而優(yōu)化、保護(hù)和利用大數(shù)據(jù),將其作為一項(xiàng)企業(yè)資產(chǎn)。
容量問題
這里所說的“大容量”通??蛇_(dá)到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應(yīng)等級的擴(kuò)展能力。與此同時(shí),存儲系統(tǒng)的擴(kuò)展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機(jī)。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產(chǎn)品,客戶可以將數(shù)據(jù)庫事務(wù)處理性能提高30倍,并且超過每秒4.0GB的持續(xù)吞吐能力,非常適用于大數(shù)據(jù)分析。
延遲問題
“大數(shù)據(jù)”應(yīng)用還存在實(shí)時(shí)性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計(jì)算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應(yīng)運(yùn)而生,小到簡單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)可擴(kuò)展存儲系統(tǒng)通過高性能閃存存儲,自動(dòng)、智能地對熱點(diǎn)數(shù)據(jù)進(jìn)行讀/寫高速緩存的LSI Nytro系列產(chǎn)品等等都在蓬勃發(fā)展。
安全問題
某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,大數(shù)據(jù)應(yīng)用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass? 技術(shù)的LSI SandForce?閃存處理器的優(yōu)勢了,實(shí)現(xiàn)了企業(yè)級閃存性能和可靠性,實(shí)現(xiàn)簡單、透明的應(yīng)用加速,既安全又方便。
大數(shù)據(jù)應(yīng)用領(lǐng)域成本問題
對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設(shè)備都實(shí)現(xiàn)更高的“效率”,同時(shí)還要減少那些昂貴的部件。重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲市場,而且還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應(yīng)用帶來更多的價(jià)值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個(gè)百分點(diǎn),這種錙銖必較的服務(wù)器也只有LSI推出的Syncro? MX-B機(jī)架服務(wù)器啟動(dòng)盤設(shè)備都能夠獲得明顯的投資回報(bào),當(dāng)今,數(shù)據(jù)中心使用的傳統(tǒng)引導(dǎo)驅(qū)動(dòng)器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數(shù)據(jù)中心的獨(dú)立服務(wù)器引導(dǎo)驅(qū)動(dòng)器,則能將可靠性提升多達(dá)100倍。并且對主機(jī)系統(tǒng)是透明的,能為每一個(gè)附加服務(wù)器提供唯一的引導(dǎo)鏡像,可簡化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達(dá)60%,真正做到了節(jié)省成本的問題。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應(yīng)用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財(cái)務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時(shí)間,因?yàn)槿魏螖?shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時(shí)間段進(jìn)行的。要實(shí)現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時(shí)還要實(shí)現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細(xì)設(shè)計(jì),才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因?yàn)閿?shù)據(jù)會同時(shí)保存在多個(gè)部署站點(diǎn)。一個(gè)大型的數(shù)據(jù)存儲基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場景。
應(yīng)用感知
最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應(yīng)用的定制的基礎(chǔ)設(shè)施,比如針對政府項(xiàng)目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲系統(tǒng)領(lǐng)域,應(yīng)用感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲環(huán)境里。
針對小用戶
依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應(yīng)用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。
大數(shù)據(jù)大數(shù)據(jù)治理計(jì)劃也需要關(guān)注與其他信息治理計(jì)劃類似的問題。這些計(jì)劃必須解決以下問題:
大數(shù)據(jù)治理需要?jiǎng)?chuàng)建可靠的元數(shù)據(jù),避免出現(xiàn)窘境,例如,一家企業(yè)重復(fù)購買了相同的數(shù)據(jù)集兩次,而原因僅僅是該數(shù)據(jù)集在兩個(gè)不同的存儲庫內(nèi)使用了不同的名稱。
■隱私
企業(yè)需要嚴(yán)格關(guān)注遵守隱私方面的問題,例如利用社交媒體進(jìn)行數(shù)據(jù)分析。
■數(shù)據(jù)質(zhì)量
考慮到大數(shù)據(jù)的龐大數(shù)量和超快速度,組織需要確定哪種級別的數(shù)據(jù)質(zhì)量屬于“足夠好”的質(zhì)量。
■信息生命周期管理。大數(shù)據(jù)治理計(jì)劃需要制定存檔策略,確保存儲成本不會超出控制。除此之外,組織需要設(shè)定保留計(jì)劃,以便按照法規(guī)要求合理處置數(shù)據(jù)。
■管理人員
最終,企業(yè)需要招募大數(shù)據(jù)管理員。例如,石油與天然氣公司內(nèi)的勘探開采部門的管理員負(fù)責(zé)管理地震數(shù)據(jù),包括相關(guān)元數(shù)據(jù)在內(nèi)。這些管理員需要避免組織因不一致的命名規(guī)范而付款購買已經(jīng)擁有的外部數(shù)據(jù)。除此之外,社交媒體管理員需要與法律顧問和高級管理人員配合工作,制定有關(guān)可接受的信息使用方法的策略。
眾所周知,企業(yè)數(shù)據(jù)本身就蘊(yùn)藏著價(jià)值,但是將有用的數(shù)據(jù)與沒有價(jià)值的數(shù)據(jù)進(jìn)行區(qū)分看起來可能是一個(gè)棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對于企業(yè)的運(yùn)轉(zhuǎn)至關(guān)重要,但是其他數(shù)據(jù)也擁有轉(zhuǎn)化為價(jià)值的力量。一段記錄人們?nèi)绾卧谀纳痰隇g覽購物的視頻、人們在購買您的服務(wù)前后的所作所為、如何通過社交網(wǎng)絡(luò)聯(lián)系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應(yīng)商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數(shù)據(jù)集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發(fā)生天翻地覆的轉(zhuǎn)變。
但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當(dāng)作為滿足公司治理規(guī)則而必須要保存的信息加以處理,而不是將它們作為戰(zhàn)略轉(zhuǎn)變的工具。
畢竟,數(shù)據(jù)和人員是業(yè)務(wù)部門僅有的兩筆無法被競爭對手復(fù)制的財(cái)富。在善用的人手中,好的數(shù)據(jù)是所有管理決策的基礎(chǔ),帶來的是對客戶的深入了解和競爭優(yōu)勢。數(shù)據(jù)是業(yè)務(wù)部門的生命線,必須讓數(shù)據(jù)在決策和行動(dòng)時(shí)無縫且安全地流到人們手中。
大數(shù)據(jù)應(yīng)用所以,數(shù)據(jù)應(yīng)該隨時(shí)為決策提供依據(jù)??纯丛谡_道路和公共交通的使用信息這樣看起來甚至有點(diǎn)晦澀的數(shù)據(jù)時(shí)會發(fā)生什么:這些數(shù)據(jù)來源為一些私營公司提供了巨大的價(jià)值,這些公司能夠善用這些數(shù)據(jù),創(chuàng)造滿足潛在需求的新產(chǎn)品和服務(wù)。
企業(yè)需要向創(chuàng)造和取得數(shù)據(jù)方面的投入索取回報(bào)。有效管理來自新舊來源的數(shù)據(jù)以及獲取能夠破解龐大數(shù)據(jù)集含義的工具只是等式的一部分,但是這種挑戰(zhàn)不容低估。產(chǎn)生的數(shù)據(jù)在數(shù)量上持續(xù)膨脹;音頻、視頻和圖像等富媒體需要新的方法來發(fā)現(xiàn);電子郵件、IM、tweet和社交網(wǎng)絡(luò)等合作和交流系統(tǒng)以非結(jié)構(gòu)化文本的形式保存數(shù)據(jù),必須用一種智能的方式來解讀。
但是,應(yīng)該將這種復(fù)雜性看成是一種機(jī)會而不是問題。處理方法正確時(shí),產(chǎn)生的數(shù)據(jù)越多,結(jié)果就會越成熟可靠。傳感器、GPS系統(tǒng)和社交數(shù)據(jù)的新世界將帶來轉(zhuǎn)變運(yùn)營的驚人新視角和機(jī)會。請不要錯(cuò)過。
有些人會說,數(shù)據(jù)中蘊(yùn)含的價(jià)值只能由專業(yè)人員來解讀。但是澤字節(jié)經(jīng)濟(jì)并不只是數(shù)據(jù)科學(xué)家和高級開發(fā)員的天下。
數(shù)據(jù)的價(jià)值在于將正確的信息在正確的時(shí)間交付到正確的人手中。未來將屬于那些能夠駕馭所擁有數(shù)據(jù)的公司,這些數(shù)據(jù)與公司自身的業(yè)務(wù)和客戶相關(guān),通過對數(shù)據(jù)的利用,發(fā)現(xiàn)新的洞見,幫助他們找出競爭優(yōu)勢。
自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實(shí)際上,早在1951年,對預(yù)測小吃店蛋糕需求的訴求就催生了計(jì)算機(jī)的首次商業(yè)應(yīng)用。自那以后,我們利用技術(shù)來識別趨勢和制定戰(zhàn)略戰(zhàn)術(shù)的能力不斷呈指數(shù)級日臻完善。
今天,商業(yè)智能 (使用數(shù)據(jù)模式看清曲線周圍的一切) 穩(wěn)居 CXO 們的重中之重。在理想的世界中,IT 是巨大的杠桿,改變了公司的影響力,帶來競爭差異、節(jié)省金錢、增加利潤、愉悅買家、獎(jiǎng)賞忠誠用戶、將潛在客戶轉(zhuǎn)化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創(chuàng)造市場。
大數(shù)據(jù)分析是商業(yè)智能的演進(jìn)。當(dāng)今,傳感器、GPS 系統(tǒng)、QR 碼、社交網(wǎng)絡(luò)等正在創(chuàng)建新的數(shù)據(jù)流。所有這些都可以得到發(fā)掘,正是這種真正廣度和深度的信息在創(chuàng)造不勝枚舉的機(jī)會。要使大數(shù)據(jù)言之有物,以便讓大中小企業(yè)都能通過更加貼近客戶的方式取得競爭優(yōu)勢,數(shù)據(jù)集成和數(shù)據(jù)管理是核心所在。
面臨從全球化到衰退威脅的風(fēng)暴, IT部門領(lǐng)導(dǎo)需要在掘金大數(shù)據(jù)中打頭陣,新經(jīng)濟(jì)環(huán)境中的贏家將會是最好地理解哪些指標(biāo)影響其大步前進(jìn)的人。
大數(shù)據(jù)應(yīng)用當(dāng)然,企業(yè)仍將需要聰明的人員做出睿智的決策,了解他們面臨著什么,在充分利用的情況下,大數(shù)據(jù)可以賦予人們近乎超感官知覺的能力。Charles Duigg是《習(xí)慣的力量》一書的作者,他找出的一個(gè)黃金案例分析的例子是美國零售商 Target,其發(fā)現(xiàn)婦女在懷孕的中間三個(gè)月會經(jīng)常購買沒有氣味的護(hù)膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優(yōu)惠券。實(shí)際上,Target 知道一位婦女懷孕時(shí),那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。
很明顯,在可以預(yù)見的將來,隱私將仍是重要的考量,但是歸根結(jié)底,用于了解行為的技術(shù)會為方方面面帶來雙贏,讓賣家了解買家,讓買家喜歡買到的東西。
再看一下作家兼科學(xué)家 Stephen Wolfram的例子,他收集有關(guān)自身習(xí)慣的數(shù)據(jù),以分析他的個(gè)人行為,預(yù)測事件在未來的可能性。
大數(shù)據(jù)將會放大我們的能力,了解看起來難以理解和隨機(jī)的事物。對其前途的了解提供了獲取嶄新知識和能力的機(jī)會,將改變您的企業(yè)運(yùn)作的方式。
大數(shù)據(jù)的意義是由人類日益普及的網(wǎng)絡(luò)行為所伴生的,受到相關(guān)部門、企業(yè)采集的,蘊(yùn)含數(shù)據(jù)生產(chǎn)者真實(shí)意圖、喜好的,非傳統(tǒng)結(jié)構(gòu)和意義的數(shù)據(jù) 。
2013年5月10日,阿里巴巴集團(tuán)董事局主席馬云在淘寶十周年晚會上,將卸任阿里集團(tuán)CEO的職位,并在晚會上做卸任前的演講,馬云說,大家還沒搞清PC時(shí)代的時(shí)候,移動(dòng)互聯(lián)網(wǎng)來了,還沒搞清移動(dòng)互聯(lián)網(wǎng)的時(shí)候,大數(shù)據(jù)時(shí)代來了。
大數(shù)據(jù)正在改變著產(chǎn)品和生產(chǎn)過程、企業(yè)和產(chǎn)業(yè),甚至競爭本身的性質(zhì)。把信息技術(shù)看作是輔助或服務(wù)性的工具已經(jīng)成為過時(shí)的觀念,管理者應(yīng)該認(rèn)識到信息技術(shù)的廣泛影響和深刻含義,以及怎樣利用信息技術(shù)來創(chuàng)造有力而持久的競爭優(yōu)勢。無疑,信息技術(shù)正在改變著我們習(xí)以為常的經(jīng)營之道,一場關(guān)系到企業(yè)生死存亡的技術(shù)革命已經(jīng)到來。
借著大數(shù)據(jù)時(shí)代的熱潮,微軟公司生產(chǎn)了一款數(shù)據(jù)驅(qū)動(dòng)的軟件,主要是為工程建設(shè)節(jié)約資源提高效率。在這個(gè)過程里可以為世界節(jié)約40%的能源。拋開這個(gè)軟件的前景不看,從微軟團(tuán)隊(duì)致力于研究開始,可以看他們的目標(biāo)不僅是為了節(jié)約了能源,更加關(guān)注智能化運(yùn)營。通過跟蹤取暖器、空調(diào)、風(fēng)扇以及燈光等積累下來的超大量數(shù)據(jù),捕捉如何杜絕能源浪費(fèi)?!敖o我提供一些數(shù)據(jù),我就能做一些改變。如果給我提供所有數(shù)據(jù),我就能拯救世界?!蔽④?a class="ed_inner_link" style="text-decoration:none;color:#3366cc;" target="_blank">史密斯這樣說。而智能建筑正是他的團(tuán)隊(duì)專注的事情。
隨著全球范圍內(nèi)個(gè)人電腦、智能手機(jī)等設(shè)備的普及和新興市場內(nèi)不斷增長的互聯(lián)網(wǎng)訪問量,以及監(jiān)控?cái)z像機(jī)或智能電表等設(shè)備產(chǎn)生的數(shù)據(jù)爆增,使數(shù)字宇宙的規(guī)模在2012到2013兩年間翻了一番,達(dá)到驚人的2.8ZB。 IDC預(yù)計(jì),到2020年,數(shù)字宇宙規(guī)模將超出預(yù)期,達(dá)到40ZB。
大數(shù)據(jù)應(yīng)用40ZB究竟是個(gè)什么樣的概念呢?地球上所有海灘上的沙粒加在一起估計(jì)有七萬零五億億顆。40ZB相當(dāng)于地球上所有海灘上的沙粒數(shù)量的57倍。也就是說到2020年,數(shù)字宇宙將每兩年翻一番;到2020年,人均數(shù)據(jù)量將達(dá)5,247GB。
該報(bào)告同時(shí)顯示,盡管個(gè)人和機(jī)器每天產(chǎn)生大量數(shù)據(jù),使數(shù)字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數(shù)據(jù)得到了分析。由此可見,大數(shù)據(jù)的應(yīng)用幾乎是一塊未被開墾的處女地。
價(jià)值
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細(xì)節(jié)化測量成為可能。挖掘用戶的行為習(xí)慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對產(chǎn)品和服務(wù)進(jìn)行針對性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)也日益顯現(xiàn)出對各個(gè)行業(yè)的推進(jìn)力。
大數(shù)據(jù)時(shí)代來臨首先由數(shù)據(jù)豐富度決定的。社交網(wǎng)絡(luò)興起,大量的UGC(互聯(lián)網(wǎng)術(shù)語,全稱為User Generated Content,即用戶生成內(nèi)容的意思)內(nèi)容、音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量更大,加上移動(dòng)互聯(lián)網(wǎng)能更準(zhǔn)確、更快地收集用戶信息,比如位置、生活信息等數(shù)據(jù)。從數(shù)據(jù)量來說,已進(jìn)入大數(shù)據(jù)時(shí)代,但硬件明顯已跟不上數(shù)據(jù)發(fā)展的腳步。
以往大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而提及“大數(shù)據(jù)”,通常是指解決問題的一種方法,并對其進(jìn)行分析挖掘,進(jìn)而從中獲得有價(jià)值信息,最終衍化出一種新的商業(yè)模式。
雖然大數(shù)據(jù)在國內(nèi)還處于初級階段,但是商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,定位角度不同,或側(cè)重?cái)?shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。
未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價(jià)值最大化。因此,大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。未來大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。據(jù)統(tǒng)計(jì),大數(shù)據(jù)所形成的市場規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計(jì)會上漲到530億美元。
存儲
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨(dú)特的架構(gòu),而且也直接推動(dòng)了存儲、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動(dòng)的,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。從另一方面看,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點(diǎn),他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。
針對大數(shù)據(jù)的世界領(lǐng)先品牌存儲企業(yè)有:IBM、EMC、LSISandForce 、 云創(chuàng)存儲、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等。
“大數(shù)據(jù)”的商業(yè)價(jià)值簡而言之,企業(yè)可以通過思考數(shù)據(jù)戰(zhàn)略的總體回報(bào),來應(yīng)對大數(shù)據(jù)的挑戰(zhàn),抓住大數(shù)據(jù)的機(jī)會。Informatica所指的‘?dāng)?shù)據(jù)回報(bào)率’,是為幫助高級IT和業(yè)務(wù)部門領(lǐng)導(dǎo)者進(jìn)行大數(shù)據(jù)基本的戰(zhàn)術(shù)和戰(zhàn)略含義的討論而設(shè)計(jì)的一個(gè)簡單概念。等式非常簡單:如果您提高數(shù)據(jù)對于業(yè)務(wù)部門的價(jià)值,同時(shí)降低管理數(shù)據(jù)的成本,從數(shù)據(jù)得到的回報(bào)就會增加 -- 無論是用金錢衡量,還是更好的決策
數(shù)據(jù)回報(bào)率=數(shù)據(jù)價(jià)值/數(shù)據(jù)成本
在技術(shù)層面,數(shù)據(jù)回報(bào)率為數(shù)據(jù)集成、數(shù)據(jù)管理、商業(yè)智能和分析方面的投入提供了業(yè)務(wù)背景和案例。它還與解決業(yè)務(wù)的基礎(chǔ)有關(guān):掙錢、省錢、創(chuàng)造機(jī)會和管理風(fēng)險(xiǎn)。它涉及對效率的考慮,同時(shí)推動(dòng)了改變游戲規(guī)則的洞察力。
實(shí)現(xiàn)回報(bào)
Informatica深知,對于很多企業(yè)來說,向數(shù)據(jù)回報(bào)模型的轉(zhuǎn)變不會一蹴而就。管理數(shù)據(jù)并將其成本降低的短期要求將會是首要焦點(diǎn),同樣還需要打破障礙以了解數(shù)據(jù)。企業(yè)只有這時(shí)才可以開始從傳統(tǒng)和新興數(shù)據(jù)集獲得更多價(jià)值。Informatica可提供數(shù)據(jù)集成平臺和領(lǐng)導(dǎo)力,為企業(yè)提供全程幫助。
在大數(shù)據(jù)的世界中,最靈活和成功的企業(yè)將會是那些善用大機(jī)遇的公司。
意義
1.變革價(jià)值的力量
未來十年,決定中國是不是有大智慧的核心意義標(biāo)準(zhǔn)(那個(gè)”思想者”),就是國民幸福。一體現(xiàn)到民生上,通過大數(shù)據(jù)讓事情變得澄明,看我們在人與人關(guān)系上,做得是否比以前更有意義;二體現(xiàn)在生態(tài)上,看我們在天與人關(guān)系上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時(shí)代,進(jìn)入未來10年意義澄明時(shí)代。
2.變革經(jīng)濟(jì)的力量
生產(chǎn)者是有價(jià)值的,消費(fèi)者是價(jià)值的意義所在。有意義的才有價(jià)值,消費(fèi)者不認(rèn)同的,就賣不出去,就實(shí)現(xiàn)不了價(jià)值;只有消費(fèi)者認(rèn)同的,才賣得出去,才實(shí)現(xiàn)得了價(jià)值。大數(shù)據(jù)幫助我們從消費(fèi)者這個(gè)源頭識別意義,從而幫助生產(chǎn)者實(shí)現(xiàn)價(jià)值。這就是啟動(dòng)內(nèi)需的原理。
3.變革組織的力量
隨著具有語義網(wǎng)特征的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)資源發(fā)展起來,組織的變革就越來越顯得不可避免。大數(shù)據(jù)將推動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生無組織的組織力量。最先反映這種結(jié)構(gòu)特點(diǎn)的,是各種各樣去中心化的WEB2.0應(yīng)用,如RSS、維基、博客等。 大數(shù)據(jù)之所以成為時(shí)代變革力量,在于它通過追隨意義而獲得智慧。
用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會活動(dòng)之間的關(guān)系。
大數(shù)據(jù)與云計(jì)算的關(guān)系物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù)。
弊端
雖然大數(shù)據(jù)的擁護(hù)者看到了使用大數(shù)據(jù)的巨大潛力,但也有隱私倡導(dǎo)者擔(dān)心,因?yàn)樵絹碓蕉嗟娜碎_始收集相關(guān)數(shù)據(jù),無論是他們是否會故意透露這些數(shù)據(jù)或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公布了一些具體的數(shù)字細(xì)節(jié)。
分析這些巨大的數(shù)據(jù)集會使我們的預(yù)測能力產(chǎn)生虛假的信息,將導(dǎo)致作出許多重大和有害的錯(cuò)誤決定。此外,數(shù)據(jù)被強(qiáng)大的人或機(jī)構(gòu)濫用,自私的操縱議程達(dá)到他們想要的結(jié)果。
洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生。
google流感趨勢(Google Flu Trends)利用搜索關(guān)鍵詞預(yù)測禽流感的散布。
統(tǒng)計(jì)學(xué)家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預(yù)測2012美國選舉結(jié)果。
麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
梅西百貨的實(shí)時(shí)定價(jià)機(jī)制,根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。
Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預(yù)測平臺。該公司用KXEN軟件來分析數(shù)十億計(jì)的交易以及客戶的特性,然后通過預(yù)測模型對特定用戶進(jìn)行動(dòng)態(tài)的營銷活動(dòng)。這項(xiàng)舉措減少了90%的預(yù)測模型構(gòu)建時(shí)間。SAP公司正在試圖收購KXEN?!癝AP想通過這次收購來扭轉(zhuǎn)其長久以來在預(yù)測分析方面的劣勢?!盠aney分析到。
PredPol Inc. 公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預(yù)測算法的變體和犯罪數(shù)據(jù)來預(yù)測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運(yùn)用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。
American Express(美國運(yùn)通,AmEx)和商業(yè)智能。以往,AmEx只能實(shí)現(xiàn)事后諸葛式的報(bào)告和滯后的預(yù)測?!皞鹘y(tǒng)的BI已經(jīng)無法滿足業(yè)務(wù)發(fā)展的需要?!盠aney認(rèn)為。于是,AmEx開始構(gòu)建真正能夠預(yù)測忠誠度的模型,基于歷史交易數(shù)據(jù),用115個(gè)變量來進(jìn)行分析預(yù)測。該公司表示,對于澳大利亞將于之后四個(gè)月中流失的客戶,已經(jīng)能夠識別出其中的24%。
大數(shù)據(jù)實(shí)踐 基礎(chǔ)架構(gòu)先行Express Scripts Holding Co.的產(chǎn)品制造。該公司發(fā)現(xiàn)那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發(fā)了一個(gè)新產(chǎn)品:會響鈴的藥品蓋和自動(dòng)的電話呼叫,以此提醒患者按時(shí)服藥。
Infinity Property & Casualty Corp.的黑暗數(shù)據(jù)(dark data)。Laney對于黑暗數(shù)據(jù)的定義是,那些針對單一目標(biāo)而收集的數(shù)據(jù),通常用過之后就被歸檔閑置,其真正價(jià)值未能被充分挖掘。在特定情況下,這些數(shù)據(jù)可以用作其他用途。該公司用累積的理賠師報(bào)告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。
利用起互聯(lián)網(wǎng)大數(shù)據(jù),對消費(fèi)者的喜好進(jìn)行判定。商戶可以為消費(fèi)者定制相應(yīng)的獨(dú)特的個(gè)性服務(wù),甚至可以在一些商品或者服務(wù)上匹配用戶心情等等。商家還可以根據(jù)大數(shù)據(jù)為消費(fèi)者提供其可能會喜好的特色產(chǎn)品,活動(dòng),小而美的小眾商品等等 。
地產(chǎn)業(yè)的升級改造,具有令人興奮的商業(yè)前景。一個(gè)Shopping Mall的投資往往高達(dá)數(shù)十億元,設(shè)想一下,如果智能化升級能夠讓一個(gè)Shopping Mall的顧客數(shù)量和人均消費(fèi)提升30%-50%,為此投入幾百萬元甚至上千萬元對于投資方來說非常劃算,那么僅僅針對國內(nèi)Shopping Mall的智能化升級就是一個(gè)千億元級別的市場。
經(jīng)典大數(shù)據(jù)案例-沃爾瑪經(jīng)典營銷:啤酒與尿布
“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個(gè)購物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時(shí),往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。如果這個(gè)年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時(shí)買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提 出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Aprior算法。沃爾瑪從上個(gè)世紀(jì) 90 年代嘗試將 Aprior 算 法引入到 POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。
IBM戰(zhàn)略
IBM的大數(shù)據(jù)戰(zhàn)略以其在2012年5月發(fā)布智慧分析洞察“3A5步”動(dòng)態(tài)路線圖作為基礎(chǔ)。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎(chǔ)上“獲取洞察”(Anticipate),進(jìn)而采取行動(dòng)(Act),優(yōu)化決策策劃能夠救業(yè)務(wù)績效。除此之外,還需要不斷地“學(xué)習(xí)”(Learn)從每一次業(yè)務(wù)結(jié)果中獲得反饋,改善基于信息的決策流程,從而實(shí)現(xiàn)“轉(zhuǎn)型”(Transform)。
大數(shù)據(jù)基于“3A5步”動(dòng)態(tài)路線圖,IBM提出了“大數(shù)據(jù)平臺”架構(gòu)。該平臺的四大核心能力包括Hadoop系統(tǒng)、流計(jì)算(StreamComputing)、數(shù)據(jù)倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。
在大數(shù)據(jù)處理領(lǐng)域,IBM于2012年10月推出了IBMPureSystems專家集成系統(tǒng)的新成員——IBM PureData系統(tǒng)。這是IBM在數(shù)據(jù)處理領(lǐng)域發(fā)布的首個(gè)集成系統(tǒng)產(chǎn)品系列。PureData系統(tǒng)具體包含三款產(chǎn)品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應(yīng)用于OLTP(聯(lián)機(jī)事務(wù)處理)、OLAP(聯(lián)機(jī)分析處理)和大數(shù)據(jù)分析操作。與此前發(fā)布的IBMPureSystems系列產(chǎn)品一樣,IBM PureData系統(tǒng)提供內(nèi)置的專業(yè)知識、源于設(shè)計(jì)的集成,以及在其整個(gè)生命周期中的簡化體驗(yàn)。
斯隆數(shù)字巡天收集在其最初的幾個(gè)星期,就比在天文學(xué)的歷史上之前的2000年的收集了更多的數(shù)據(jù)。自那時(shí)以來,它已經(jīng)積累了140兆兆 字節(jié)的信息。這個(gè)望遠(yuǎn)鏡的繼任者,大天氣巡天望遠(yuǎn)鏡,將于2016年在網(wǎng)上將獲得數(shù)據(jù)公布,沃爾瑪每隔一小時(shí)處理超過100萬客戶的交易,錄入量數(shù)據(jù)庫估計(jì)超過2.5 PB相當(dāng)于美國國會圖書館的書籍的167倍 。FACEBOOK從它的用戶群獲得并處理400億張照片。解碼最原始的人類基因組花費(fèi)10年時(shí)間處理,如今可以在一個(gè)星期內(nèi)實(shí)現(xiàn)。
“大數(shù)據(jù)”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個(gè)行業(yè)自身價(jià)值超過1000億美元,增長近10%,每年兩次,這大概是作為一個(gè)整體的軟件業(yè)務(wù)的快速。
大數(shù)據(jù)已經(jīng)出現(xiàn),因?yàn)槲覀兩钤谝粋€(gè)有更多信息的社會中。有46億全球移動(dòng)電話用戶有20億人訪問互聯(lián)網(wǎng)。基本上,人們比以往任何時(shí)候都與數(shù)據(jù)或信息交互。 1990年至2005年,全球超過1億人進(jìn)入中產(chǎn)階級,這意味著越來越多的人收益的這筆錢將反過來導(dǎo)致更多的信息增長。思科公司預(yù)計(jì),到2013年,在互聯(lián)網(wǎng)上流動(dòng)的交通量將達(dá)到每年667艾字節(jié)。
大數(shù)據(jù),其影響除了經(jīng)濟(jì)方面的,它同時(shí)也能在政治、文化等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。
大數(shù)據(jù)實(shí)踐國內(nèi)網(wǎng)絡(luò)廣告投放正從傳統(tǒng)的面向群體的營銷轉(zhuǎn)向個(gè)性化營銷,從流量購買轉(zhuǎn)向人群購買。雖然市場大環(huán)境不好,但是具備數(shù)據(jù)挖掘能力的公司卻倍受資本青睞。
163大數(shù)據(jù)是一個(gè)很好的視角和工具。從資本角度來看,什么樣的公司有價(jià)值,什么樣的公司沒有價(jià)值,從其擁有的數(shù)據(jù)規(guī)模、數(shù)據(jù)的活性和這家公司能運(yùn)用、解釋數(shù)據(jù)的能力,就可以看出這家公司的核心競爭力。而這幾個(gè)能力正是資本關(guān)注的點(diǎn)。
移動(dòng)互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)興起將大數(shù)據(jù)帶入新的征程,互聯(lián)網(wǎng)營銷將在行為分析的基礎(chǔ)上向個(gè)性化時(shí)代過渡。創(chuàng)業(yè)公司應(yīng)用“大數(shù)據(jù)”告訴廣告商什么是正確的時(shí)間,誰是正確的用戶,什么是應(yīng)該發(fā)表的正確內(nèi)容等,這正好切中了廣告商的需求。
社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交網(wǎng)絡(luò)也記錄了用戶群體的情緒,通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。
實(shí)際上,將用戶群精準(zhǔn)細(xì)分,直接找到要找的用戶正是社交內(nèi)容背后數(shù)據(jù)挖掘所帶來的結(jié)果。而通過各種算法實(shí)現(xiàn)的數(shù)據(jù)信息交易,正是張文浩為自己的社交數(shù)據(jù)挖掘公司設(shè)計(jì)的盈利模式。這家僅僅五六個(gè)人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動(dòng)迎合用戶需求,前提就是要找到這部分人群。
在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,公司從開發(fā)者角度找到數(shù)據(jù)挖掘的方向,通過提供免費(fèi)的技術(shù)服務(wù),幫助開發(fā)者了解應(yīng)用狀況。
國內(nèi)的企業(yè)跟美國比較,有一個(gè)很重要的特性就是人口基數(shù)的區(qū)別,中國消費(fèi)群體所產(chǎn)生的這種數(shù)據(jù)量,與國外相比不可同日而語。
伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計(jì)算云存儲等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄。在移動(dòng)互聯(lián)網(wǎng)的核心網(wǎng)絡(luò)節(jié)點(diǎn)是人,不再是網(wǎng)頁。數(shù)據(jù)大爆炸下,怎樣挖掘這些數(shù)據(jù),也面臨著技術(shù)與商業(yè)的雙重挑戰(zhàn)。
首先,如何將數(shù)據(jù)信息與產(chǎn)品和人相結(jié)合,達(dá)到產(chǎn)品或服務(wù)優(yōu)化是大數(shù)據(jù)商業(yè)模式延展上的挑戰(zhàn)之一。
其次,巧婦難為無米之炊,大數(shù)據(jù)的關(guān)鍵還是在于誰先擁有數(shù)據(jù)。
從市場角度來看,大數(shù)據(jù)還面臨其他因素的挑戰(zhàn)。
產(chǎn)業(yè)界對于大數(shù)據(jù)的熱情持續(xù)升溫的同時(shí),資本也敏銳地發(fā)現(xiàn)了這一趨勢,并開始關(guān)注數(shù)據(jù)挖掘和服務(wù)類公司。
最早提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來的機(jī)構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報(bào)告中指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。
大數(shù)據(jù)時(shí)代:如何節(jié)省存儲成本“麥肯錫的報(bào)告發(fā)布后,大數(shù)據(jù)迅速成為了計(jì)算機(jī)行業(yè)爭相傳誦的熱門概念,也引起了金融界的高度關(guān)注?!彪S著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點(diǎn)在業(yè)界已經(jīng)形成共識?!叭绻f云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級方向?!?
事實(shí)上,全球互聯(lián)網(wǎng)巨頭都已意識到了“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)的重要意義。包括EMC、惠普、IBM、微軟在內(nèi)的全球IT 巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實(shí)現(xiàn)技術(shù)整合,亦可見其對“大數(shù)據(jù)”的重視。
“大數(shù)據(jù)”作為一個(gè)較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。
大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營交易信息、物聯(lián)網(wǎng)世界中的商品物流信息,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何盤活這些數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級方向。
大數(shù)據(jù)時(shí)代網(wǎng)民和消費(fèi)者的界限正在消弭,企業(yè)的疆界變得模糊,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務(wù)模式,甚至重構(gòu)其文化和組織。因此,大數(shù)據(jù)對國家治理模式、對企業(yè)的決策、組織和業(yè)務(wù)流程、對個(gè)人生活方式都將產(chǎn)生巨大的影響。如果不能利用大數(shù)據(jù)更加貼近消費(fèi)者、深刻理解需求、高效分析信息并作出預(yù)判,所有傳統(tǒng)的產(chǎn)品公司都只能淪為新型用戶平臺級公司的附庸,其衰落不是管理能扭轉(zhuǎn)的。
大數(shù)據(jù)時(shí)代將引發(fā)新一輪信息化投資和建設(shè)熱潮。據(jù)IDC預(yù)測,到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,而麥肯錫則預(yù)測未來大數(shù)據(jù)產(chǎn)品在三大行業(yè)的應(yīng)用就將產(chǎn)生7千億美元的潛在市場,未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達(dá)到1.57萬億元,給IT行業(yè)開拓了一個(gè)新的黃金時(shí)代。
當(dāng)前還處在大數(shù)據(jù)時(shí)代的前夜,預(yù)計(jì)今明兩年將是大數(shù)據(jù)市場的培育期,2014年以后大數(shù)據(jù)產(chǎn)品將會形成業(yè)績。
大數(shù)據(jù)給城市帶來的重大變革宋清輝:大數(shù)據(jù)正改變我們的未來
大數(shù)據(jù)時(shí)代,與其讓對你感興趣的人去搜尋你的隱私,就不如自曝隱私。當(dāng)我在全球不同城市演講結(jié)束交換名片的時(shí)候,基本從來不發(fā)載有自己名字、電話、地址等基本信息的名片,因?yàn)槟歉居貌恢膊环洗髷?shù)據(jù)時(shí)代的精髓。所以我的名片簡單到只有一個(gè)名字和幾個(gè)二維碼,只要百度一下或者掃一掃二維碼,關(guān)于個(gè)人的信息別人就會一覽無余,包括在寫什么文章、在哪里演講等信息……
不想說一個(gè)人若拒絕大數(shù)據(jù)就去失去生命這樣沉重的話題,但大數(shù)據(jù)確實(shí)在深刻改變著你和我的未來。
大數(shù)據(jù)2015年5月26日,中共貴州省委副書記、省政府省長陳敏爾在峰會上透露,國家在制定大數(shù)據(jù)國家戰(zhàn)略及行動(dòng)計(jì)劃。貴州省將抓住和用好戰(zhàn)略機(jī)遇,深入挖掘大數(shù)據(jù)的商業(yè)價(jià)值、管理價(jià)值和社會價(jià)值。[1]
工信部信息服務(wù)處處長李琰在論壇期間則表示,工信部將抓緊研究制定大數(shù)據(jù)發(fā)展的指導(dǎo)性文件。下一步,工信部將和有關(guān)部門加強(qiáng)協(xié)同,積極營造良好的環(huán)境,推動(dòng)應(yīng)用和產(chǎn)業(yè)相互促進(jìn)、良性發(fā)展,為我國大數(shù)據(jù)產(chǎn)業(yè)和大數(shù)據(jù)創(chuàng)新發(fā)展探索積累經(jīng)驗(yàn)。
大數(shù)據(jù) 大數(shù)據(jù)時(shí)代來了!不得不承認(rèn)如今數(shù)據(jù)量的激增越來越明顯,各種各樣的數(shù)據(jù)鋪天蓋地的砸下來,企業(yè)選擇相應(yīng)工具來存儲、分析與處理它們。從Excel、BI工具,到現(xiàn)在最新的可視化數(shù)據(jù)分析工具大數(shù)據(jù)魔鏡,數(shù)據(jù)分析軟件進(jìn)步越來越快,免費(fèi)的大數(shù)據(jù)魔鏡已經(jīng)可以達(dá)到500多種可視化效果和實(shí)現(xiàn)數(shù)據(jù)共享。那么在大數(shù)據(jù)時(shí)代中,都新出現(xiàn)了哪些數(shù)據(jù)類型呢?
1)過于一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料。現(xiàn)在這些數(shù)據(jù)不但數(shù)據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。舉個(gè)例子,F(xiàn)acebook每天有18億張照片上傳或被傳播,形成了海量的數(shù)據(jù)。[2]
2)移動(dòng)互聯(lián)網(wǎng)出現(xiàn)后,移動(dòng)設(shè)備的很多傳感器收集了大量的用戶點(diǎn)擊行為數(shù)據(jù),已知IPHONE有3個(gè)傳感器,三星有6個(gè)傳感器。它們每天產(chǎn)生了大量的點(diǎn)擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。
3)電子地圖如高德、百度、Google地圖出現(xiàn)后,其產(chǎn)生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個(gè)屬性或一個(gè)度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行為、一種習(xí)慣,這些流數(shù)據(jù)經(jīng)頻率分析后會產(chǎn)生巨大的商業(yè)價(jià)值?;诘貓D產(chǎn)生的數(shù)據(jù)流是一種新型的數(shù)據(jù)類型,在過去是不存在的。
4)進(jìn)入了社交網(wǎng)絡(luò)的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù),這些數(shù)據(jù)是過去未曾出現(xiàn)的。其揭示了人們行為特點(diǎn)和生活習(xí)慣。
5)電商戶崛起產(chǎn)來了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行為,物流運(yùn)輸、購買喜好,點(diǎn)擊順序,評價(jià)行為等,其是信息流和資金流數(shù)據(jù)。
6)傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數(shù)據(jù)。單位存儲價(jià)格的下降也為存儲這些數(shù)據(jù)提供了經(jīng)濟(jì)上的可能。