“很多人還沒搞清楚什么是PC互聯(lián)網,移動互聯(lián)網來了,我們還沒搞清楚移動互聯(lián)的時候,大數據時代又來了。”——馬云卸任演講
本文嘗試從三大產業(yè)的角度將大數據的核心商業(yè)價值分類討論。 首先例舉一些大數據的典型應用,然后解釋大數據的定義,最后總結大數據的價值。
我們知道:
第一次工業(yè)革命以煤炭為基礎,蒸汽機和印刷術為標志;
第二次工業(yè)革命以石油為基礎,內燃機和電信技術為標志;
第三次工業(yè)革命以核能基礎,互聯(lián)網技術為標志;
第四次工業(yè)革命以可再生能源為基礎,_________為標志。 空白處你會填上什么?歡迎大家討論。但是目前可以預測的是,數據和內容作為互聯(lián)網的核心,不論是傳統(tǒng)行業(yè)還是新型行業(yè),誰率先與互聯(lián)網融合成功,能夠從大數據的金礦中發(fā)現暗藏的規(guī)律,就能夠搶占先機,成為技術改革的標志。
一、大數據的應用 大數據挖掘商業(yè)價值的方法主要分為四種: 客戶群體細分,然后為每個群體量定制特別的服務。 模擬現實環(huán)境,發(fā)掘新的需求同時提高投資的回報率。 加強部門聯(lián)系,提高整條管理鏈條和產業(yè)鏈條的效率。 降低服務成本,發(fā)現隱藏線索進行產品和服務的創(chuàng)新。 Mckinsey列出了各個行業(yè)利用大數據價值的難易度以及發(fā)展?jié)摿?。?/span>Big data: The next frontier for innovation, competition, and productivity》 各種Data之間的關系圖,注意Open Data是完全包含了Open government data(政府開放數據) Mckinsey也列出了Open Data時代里七大行業(yè)潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫(yī)療護理、消費金融。(感謝知友安陽提供的補充鏈接資料) 大數據的類型大致可分為三類: 傳統(tǒng)企業(yè)數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統(tǒng)的ERP數據,庫存數據以及賬目數據等。 機器和傳感器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設備傳感器,設備日志(通常是Digital exhaust),交易數據等。 社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平臺。 從理論上來看:所有產業(yè)都會從大數據的發(fā)展中受益。但由于數據缺乏以及從業(yè)人員本身的原因,第一、第二產業(yè)的發(fā)展速度相對于第三產業(yè)來說會遲緩一些。 1985年,我國國家統(tǒng)計局明確地把我國產業(yè)劃分為三大產業(yè): 農業(yè)(包括林業(yè)、牧業(yè)、漁業(yè)等)定為第一產業(yè)。 工業(yè)(包括采掘業(yè)、制造業(yè)、自來水、電力、蒸汽、煤氣)和建筑業(yè)定為第二產業(yè)。 把第一、二產業(yè)以外的各行業(yè)定為第三產業(yè)。 第三產業(yè)即除第一、第二產業(yè)以外的向全社會提供各種各樣勞務的服務性行業(yè),主要是服務業(yè)。其中第三產業(yè)可具體分為兩大部門:一是流通部門;二是服務部門。再細分又可分為四個層次: 第一層次,流通部門。包括交通運輸行業(yè)、郵電通訊行業(yè)、物資供銷和倉儲行業(yè)。 第二層次,為生產和生活服務的部門。包括金融業(yè)、商業(yè)飲食業(yè)、保險業(yè)、地質普查業(yè)、房地產業(yè)、公用事業(yè)、技術服務業(yè)和生活服務修理業(yè)務; 第三層次,為提高科學文化水平和居民素質服務的部門。包括教育文化、廣播電視事業(yè)、科學研究事業(yè)、衛(wèi)生、體育和社會福利事業(yè); 第四層次,為社會公共需要服務的部門。包括國家機關、黨政機關、社會團體、以及軍隊和警察公安司法機關等。 我們可以看出,由于某些客觀原因,相對于第一產業(yè)和第二產業(yè)來說,第三產業(yè)憑借自身的優(yōu)勢,大多匯聚了當前最海量的數據以及大批的科研中堅力量。接下來讓我們看一些典型例子,當前新形勢下與三大產業(yè)密切相關的大數據應用。 (1).第一產業(yè) 孟山都(Monsanto | A Sustainable Agriculture Company),農業(yè) 孟山都是一家美國的跨國農業(yè)生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期占據市場第一個位置。該公司目前也是基因改造(GE)種子的領先生產商,占據了多種農作物種子70%–100%的市場份額,而在美國本土,更占有整個市場的90%。已經統(tǒng)治了生物工程種子業(yè)務超過十年。 孟山都首先發(fā)起“Green Data Revolution”運動,建立農業(yè)數據聯(lián)盟(Open Ag Data Alliance)來統(tǒng)一數據標準,讓農民不用懂“高科技”也能享受大數據的成果。典型的應用如農場設備制造商John Deere與DuPont Pioneer當前聯(lián)合提供“決策服務(Decision Services)”,農民只需在駕駛室里拿出平板電腦,收集種子監(jiān)視器傳來的數據,然后將其上傳給服務器,最終服務器返回化肥的配方到農場拖拉機上。 天氣意外保險公司(The Climate Corporation),農業(yè) The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節(jié)的天氣保險項目。利用公司特有的數據采集與分析平臺,每天從250萬個采集點獲取天氣數據,并結合大量的天氣模擬、海量的植物根部構造和土質分析等信息對意外天氣風險做出綜合判斷,然后向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。 土壤抽樣分析服務商(Solum, Inc),農業(yè) Solum目標是實現高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發(fā)的No Wait Nitrate系統(tǒng)在田間進行分析即時獲取數據;也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資后,已累計融資近2000萬美元。 了解更多: 大數據對于農業(yè)的發(fā)展會帶來什么影響?或具體到對農場經營會有什么啟示或者帶來什么樣的變化? (2).第二產業(yè) 2013年9月,工業(yè)和信息化部發(fā)布了《關于印發(fā)信息化和工業(yè)化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯(lián)網在工業(yè)領域的集成創(chuàng)新和應用: 實施物聯(lián)網發(fā)展專項,在重點行業(yè)組織開展試點示范,以傳感器和傳感器網絡、RFID、工業(yè)大數據的應用為切入點,重點支持生產過程控制、生產環(huán)境檢測、制造供應鏈跟蹤、遠程診斷管理等物聯(lián)網應用,促進經濟效益提升、安全生產和節(jié)能減排。 大數據的業(yè)務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業(yè)企業(yè)對數據的記錄以往看來主要分為兩種方法:傳統(tǒng)的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業(yè)生產及質量監(jiān)控埋下了巨大的隱患,也讓數據挖掘無從談起。 隨著信息化與工業(yè)化的融合發(fā)展,信息技術滲透到了工業(yè)企業(yè)產業(yè)鏈的各個環(huán)節(jié)。例如Sensor、RFID、Barcode、物聯(lián)網等技術已經在企業(yè)中得到初步應用,工業(yè)大數據也開始逐漸得到積累。企業(yè)中生產線高速運轉時機器所產生的數據量不亞于計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業(yè)大數據所面臨的問題和挑戰(zhàn)很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監(jiān)William Ruh認為相對于工業(yè)大數據來說,工業(yè)互聯(lián)網(Industrial Internet)才是當前急需的,因為大數據本身并沒有讓信息的提取更加智能,業(yè)務比數據本身更加重要。他舉了一個核磁共振成像掃描的例子: Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most. At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent. 又如在工業(yè)中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一臺機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基于大數據的分布式系統(tǒng)上發(fā)布同樣的查詢執(zhí)行一種計算只需要不到一秒鐘。 第三方認證機構(TüV NORD GROUP),工業(yè) 德國漢德技術監(jiān)督服務有限公司的前身是德國鍋爐檢驗協(xié)會(簡稱TüV)早在1869年,德國鍋爐檢驗協(xié)會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協(xié)會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統(tǒng)開始,到壓力容器,機動車輛,醫(yī)療設備,環(huán)境保護,宇航工業(yè),醫(yī)療產品等等,現在的德國漢德技術監(jiān)督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業(yè)質量管理體系,生產環(huán)境體系,生產碳排放方案等。TüV當前從建筑綠色標準體系方面提出了對于大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建筑的設計規(guī)劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統(tǒng),實現建筑的低碳、綠色、智能。 工業(yè)自動化軟件商(Wonderware ),工業(yè) Wonderware作為系統(tǒng)軟件涉及的專業(yè)企業(yè),對于大數據的計算和運用是從比較“IT”的角度出發(fā)的。Wonderware 的實時數據管理軟件能夠提供一個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監(jiān)在手機上就能夠隨時隨地監(jiān)控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟件解決方案。 了解更多: 大數據在電力行業(yè)的應用前景有哪些? (3).第三產業(yè) 這一個部分的內容比較多。這里只提出一些典型的應用例子,歡迎補充。 健康與醫(yī)療:Fitbit? Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路里消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發(fā)床墊監(jiān)測傳感器,自動監(jiān)測和記錄心臟速率、呼吸速率、運動和睡眠活動。該傳感器收集的數據以無線方式被發(fā)送到智能手機和平板電腦進行進一步分析;美國公共衛(wèi)生協(xié)會(APHA: American Public Health Association)開發(fā)Flu Near You用來的癥狀,通過大數據分析生成報告顯示用戶所在地區(qū)的流感活動。 視頻:互聯(lián)網電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規(guī)模最大的商業(yè)視頻流供應商,收集的數據包括用戶在看什么、喜歡在什么時段觀看、在哪里觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點后退、快進或者暫停,乃至看到哪里直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯(lián)性,確定新劇拍攝的最佳人選。 When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there. 交通:《車來了》通過分析公交車上GPS定位系統(tǒng)每天的位置和時間數據,結合時刻表預測出每一輛公交車的到站時間;WNYC開發(fā)的Transit Time NYC通過開源行程平臺(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據采集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息并進行數據匯總分析,而后計算出最佳線路,讓用戶能夠避開擁堵。 電子商務:Decide 是一家預測商品價格并為消費者提出購買時間建議的創(chuàng)業(yè)公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在一個頁面中方便消費者對比查看,并且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經于2013年被 eBay收購。 政治:奧巴馬在總統(tǒng)競選中使用大數據分析來收集選民的數據,讓他可以專注于對他最感興趣的選民,谷歌執(zhí)行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元并聚攏核心成員成立了Civis Analytics咨詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業(yè)和非營利行業(yè)中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term) 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創(chuàng)立金融數據分析服務提供商,使用機器學習算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統(tǒng)銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業(yè)平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發(fā)卡機構、保險、醫(yī)療保健、政府和零售行業(yè)提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與數據庫中的全體借款人的信用習慣相比較,檢查借款人的發(fā)展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發(fā)展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監(jiān)管與競爭要求并快速獲取市場份額。想了解更多的企業(yè)可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。 電信: 美國T-mobiles采用Informatica - The Data Integration Company平臺開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優(yōu)化網絡布局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業(yè)務防止用戶流失。美國AT&T 公司將記錄用戶在Wifi網絡中的地理位置、網絡瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優(yōu)惠券。英國BT - Broadband公司發(fā)布了新的安全數據分析服務Assure Analytics—BT news releases,幫助企業(yè)收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業(yè),幫助企業(yè)改進決策。 一般來說盈利性質的商業(yè)公司和企業(yè)都不會輕易泄露自己的數據、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗里,如同《三體》中的”黑暗森林法則“。 宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行于林間,輕輕撥開擋路的樹枝,竭力不讓腳步發(fā)出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發(fā)現了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恒的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。
二、大數據的定義 大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。”業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。 數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。 數據類型繁多(Variety)。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。 價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。 處理速度快(Velocity)。大數據區(qū)分于傳統(tǒng)數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。 看看專家們怎么說。 舍恩伯格,大數據時代 (豆瓣) 不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。 埃里克·西格爾,大數據預測 (豆瓣) 大數據時代下的核心,預測分析已在商業(yè)和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。 城田真琴,大數據的沖擊 (豆瓣) 從數據的類別上看,“大數據”指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。 它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數據集。
三、大數據的價值 了解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關于大數據的價值都有了自己的答案。 2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。 Limits of Predictability in Human Mobility A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis. 而大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它概率?!坝幸?guī)律的隨機事件”在大量重復出現的條件下,往往呈現幾乎必然的統(tǒng)計特性。 舉個例子,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多后,達到上萬次甚至幾十萬幾百萬次以后,我們就會發(fā)現,硬幣每一面向上的次數約占總次數的二分之一。偶然中包含著某種必然。 隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。 實驗的不斷反復、大數據的日漸積累讓人類發(fā)現規(guī)律,預測未來不再是科幻電影里的讀心術。 如果銀行能及時地了解風險,我們的經濟將更加強大。 如果政府能夠降低欺詐開支,我們的稅收將更加合理。 如果醫(yī)院能夠更早發(fā)現疾病,我們的身體將更加健康。 如果電信公司能夠降低成本,我們的話費將更加便宜。 如果交通動態(tài)天氣能夠掌握,我們的出行將更加方便。 如果商場能夠動態(tài)調整庫存,我們的商品將更加實惠。 最終,我們都將從大數據分析中獲益。
四、結束語。 Here's the thing about the future.關于未來有一個重要的特征 Every time you look at it,每一次你看到了未來 it changes because you looked at it.它會跟著發(fā)生改變 因為你看到了它 And that changes everything else.然后其它事也跟著一起改變了 數據本身不產生價值,如何分析和利用大數據對業(yè)務產生幫助才是關鍵。 祝每一個DMer都挖掘到金礦和快樂:)