只有量的積累的數據,通常并不能稱之為大數據。除了大量性,大數據常常還應該具有多維性和完備性。大數據的多維性,可以理解為針對單一“個體”(人/物/事件等)不同角度的數據。比如之前提到的:收集全國所有人的出生年月,單收集這一項,數據單一缺乏意義;但如果再加入收入、所屬地區(qū)、受教育程度等等多維的信息,那數據本身就變得鮮活了。我們可以從數據中分析人口的地域分布、經濟分布、教育分布等并在此基礎上給出宏觀的資源調控計劃。大數據的完備性,則可以理解為數據的全面性。比如2012年一位名叫內德·斯威爾的年輕人,利用大數據成功預測了美國50+1個州的大選結果。他其實就是在投票前利用互聯網盡可能的搜集當年的大選數據(如地方媒體數據、社交網絡留言、朋友間評論等),從而近似的知道每個人對大選的態(tài)度,并按照州進行分類整理,最終成功預測了當年的大選結果。缺少多維性的“大數據”會讓數據承載的信息“片面”,進而導致數據本身的利用價值大大下降;缺乏完備性的數據則會由于缺乏“完備樣本”的支撐,也會使得獲取的信息“局限性”。大數據最好還應具有“及時性”,但及時性卻并不是其必備條件,只是有了“及時性”的大數據,會實現一些過去無法做到的事情。大數據的及時性,可以理解為數據收集的時效性。一方面,要分析當前情況,就要盡可能使用與當前時間點較為接近的數據;另一方面,數據本身就在時刻產生(特別是今天的互聯網),新鮮的數據能更快速的反應當前社會的一些情況。比如使用百度地圖導航的時候,它能根據數據庫中人們當前的(及時的數據)車輛出行地點,和即將要去的地方大概估算出此人的行程規(guī)劃,并通過眾多數據的整合估算出某一路段可能的堵塞情況,進而在導航的時候給出“避免擁堵”的導航建議。
大數據產生價值的鏈路是:數據驅動決策——決策實踐價值。國內企業(yè)總是談數據變現實際是一種對大數據價值的歧義理解。企業(yè)面對的TO B或TO C不是個體單維度數據而是海量多維度數據,單一數據不能提供任何決策依據。然而企業(yè)決策者往往對大數據的理解不夠清晰透徹,片面的認為數據就是價值,花錢就要見效,把重點需求放在了所謂的上文說道的“有效數據上”當然效果在短期是非常顯而易見的。而在利益驅動下企業(yè)的方向就真的隨著“數據”驅動決策了,如同你是正常人卻天天吸純氧,企業(yè)想的就不是產品緊貼市場需求、如何有效改進,增強市場競爭優(yōu)勢,而是圍繞相應“數據”下進行各種營銷。
接下來為大家推薦學習大數據時代的一份書單。
《為數據而生》全書分成四個部分。我給大家寫個梗概。:
1.大數據時代,用數據說話:
這一部分是引子。大數據時代,數據無處不在,我們每個人都制造更多數據,也接受更多數據。量變引起質變,大數據實際上已經成為一種新的理念,它已經引起商業(yè)模式、決策、生活方式等等的顛覆性變化。
所以作者認為,大數據將會驅動新的工業(yè)革命。計算效率的指數級提升,數據的數量、深度和廣度的增加,數據分析理論的進步,對于個性化的追求,這四點為我們描繪了工業(yè)革命的新圖景。
2.大數據1.0:分析
用常規(guī)的統(tǒng)計學分析方法結合大數據,能夠做到很多以前做不到的事情。數據總會呈現一些特征,當異常情況出現,我們就能從中偵測到有用的信息,正所謂“統(tǒng)計呈現洞見”。事物之間總有關聯與因果,通過分析數據中的關聯關系,便能使關聯創(chuàng)造價值。通過統(tǒng)計和關聯發(fā)掘特征之后,便能進行預測,指導決策。
3.大數據2.0:外化
外化的意思包括兩點——
一方面是尋求外部數據的幫助。作者在電子科技大學采集學生日常行為數據,發(fā)現了諸多“在寢室呆的越久,成績越差”、“進圖書館次數越多,成績越好”甚至于“打水越多,成績越好”的關聯——而這些關聯的可信度,統(tǒng)統(tǒng)是由大數據支持的。可見,為達到某種分析目標,可能需要借用看起來關聯度并不高的外部數據。但實際效果卻是非常有效的。
另一方面是自身數據的外部價值。Google對自己搜索引擎的搜索數據進行挖掘,結果竟然建立了一個流感傳播趨勢的預測模型。在此之前,傳染病流行是一個非常復雜的統(tǒng)計問題,但基于先進的大數據方法,Google僅用45個變量就將其趨勢刻畫出來了。
這一部分最后提到的是機器學習,數據外化最神奇的利器。坦白說,這應該是全書最難的一章,但卻是不得不讀的一章。作者常被問到,什么課程對于理解和應用大數據最有幫助?他永遠建議:統(tǒng)計理論和機器學習。真正厲害的大數據應用,絕大部分都和機器學習有關系。作者還很形象地把機器學習模型比喻為程咬金的“三板斧”,包括特征、模型、融合三點。鑒于國內很少有機器學習的入門資料,這一項艱深的技術對于初學者可以說是非常不友好。但至少在這本書里,我們能有一個大概的鳥瞰式了解。