大數(shù)據(jù),現(xiàn)在越來(lái)越成為了一個(gè)很時(shí)髦的詞匯。有人把大數(shù)據(jù)形容為未來(lái)世界的石油,有人宣稱掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個(gè)世界,美國(guó)政府甚至已經(jīng)把對(duì)大數(shù)據(jù)的研究上升為國(guó)家戰(zhàn)略。日前,由中國(guó)科協(xié)舉辦的“科學(xué)家與媒體面對(duì)面—大數(shù)據(jù)離我們生活有多遠(yuǎn)”活動(dòng)中,有關(guān)專家為我們介紹了大數(shù)據(jù)對(duì)未來(lái)生活的影響。
我們生活在一個(gè)充滿“數(shù)據(jù)”的時(shí)代,這里的“數(shù)據(jù)”,并不僅僅指數(shù)字,理論上講,一切可以以文件形式儲(chǔ)存于計(jì)算機(jī)硬盤的東西,包括數(shù)字、文字、圖像、聲音、視頻等,均可稱為“數(shù)據(jù)”。我們打電話,使用微博、QQ、博客等社交工具,都是在不斷增加著社會(huì)總體數(shù)據(jù)量。
據(jù)權(quán)威預(yù)測(cè),未來(lái)每隔18個(gè)月,整個(gè)世界的數(shù)據(jù)總量就會(huì)翻倍。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。
數(shù)據(jù),除了它第一次被使用時(shí)提供的價(jià)值以外,那些積累下來(lái)的數(shù)據(jù)海洋并不是無(wú)用的廢物,它還有著無(wú)窮無(wú)盡的“剩余價(jià)值”,關(guān)于這一點(diǎn),人們已經(jīng)有了越來(lái)越多的認(rèn)識(shí)。事實(shí)上,大數(shù)據(jù)已經(jīng)開(kāi)始并將繼續(xù)影響我們的生活,下面我們不妨試舉幾例。
很多女性可能有這樣的經(jīng)歷,使用某瀏覽器在淘寶、京東等購(gòu)物網(wǎng)站上購(gòu)買過(guò)一本關(guān)于懷孕的書籍后,在之后十個(gè)月左右的時(shí)間里,你的瀏覽器兩側(cè)的廣告欄里不斷出現(xiàn)懷孕所需要的東西,如營(yíng)養(yǎng)食品、對(duì)胎兒無(wú)影響的孕婦用藥、胎心監(jiān)測(cè)儀、體溫計(jì)、血壓計(jì)等產(chǎn)品廣告,登錄原來(lái)的購(gòu)物網(wǎng)站,也會(huì)在首頁(yè)向你推薦這類產(chǎn)品。而且,在十個(gè)月之后,你會(huì)發(fā)現(xiàn),以上這些廣告開(kāi)始變成嬰兒用品了。
你以前可能對(duì)瀏覽器廣告非常討厭,但對(duì)這類廣告,你卻欣然接受,因?yàn)樗扑]的產(chǎn)品正是你所需要的。這實(shí)際上就是大數(shù)據(jù)應(yīng)用的一個(gè)簡(jiǎn)單案例。你的瀏覽經(jīng)歷已經(jīng)被瀏覽器和電商所記錄,通過(guò)對(duì)用戶瀏覽記錄進(jìn)行大數(shù)據(jù)分析,就可以推測(cè)出你目前是一種什么狀態(tài),今后又將經(jīng)歷哪些狀態(tài),于是,專為你定制的廣告就在你需要的時(shí)候出現(xiàn)在你的眼前。
大數(shù)據(jù)最本質(zhì)的應(yīng)用就在于預(yù)測(cè),即從海量數(shù)據(jù)中分析出一定的特征,進(jìn)而預(yù)測(cè)未來(lái)可能會(huì)發(fā)生什么。實(shí)際上,上述例子僅僅是大數(shù)據(jù)應(yīng)用的最初級(jí)階段。因?yàn)樗婕暗臄?shù)據(jù)的范圍并不廣泛,其分析原理也非常簡(jiǎn)單。而如前言所述,大數(shù)據(jù)有數(shù)據(jù)量大、數(shù)據(jù)多樣性等特征,實(shí)際是將各個(gè)維度的數(shù)據(jù)進(jìn)行綜合分析進(jìn)而進(jìn)行一定的預(yù)測(cè)。當(dāng)不同的數(shù)據(jù)流被整合到大型數(shù)據(jù)庫(kù)中后,預(yù)測(cè)的廣度和精度都會(huì)大規(guī)模的提高。例如,當(dāng)一個(gè)數(shù)據(jù)庫(kù)從不同的數(shù)據(jù)來(lái)源獲得了你使用手機(jī)的時(shí)間和地點(diǎn)、信用卡購(gòu)物、銀行卡電子收費(fèi)系統(tǒng)、使用QQ等聊天工具的對(duì)象、你的QQ好友關(guān)系圖、你在新浪微博、騰訊微博的收聽(tīng)及被收聽(tīng)關(guān)系圖譜、你交納的水、電、燃?xì)赓M(fèi)等各方面的數(shù)據(jù),數(shù)據(jù)分析師就能通過(guò)匹配獲得你生活的不同側(cè)面。通過(guò)大數(shù)據(jù),數(shù)據(jù)分析可以發(fā)現(xiàn)各種各樣的關(guān)聯(lián)。通過(guò)分析,可以發(fā)現(xiàn)你多方面的需求,并不僅僅是諸如懷孕書籍和尿不濕之間的簡(jiǎn)單關(guān)聯(lián)了。在數(shù)據(jù)足夠“大”的情況下,你生活中幾乎所有的需求都可能會(huì)被預(yù)測(cè)出來(lái)。例如,從數(shù)據(jù)分析出你可能會(huì)約會(huì),于是會(huì)向你推薦衣服;從數(shù)據(jù)推測(cè)出你會(huì)出去旅游,于是向你推薦相關(guān)裝備及旅行方式等。
通過(guò)分析大量用戶的搜索記錄,比如“咳嗽”、“發(fā)燒”等特定詞條,谷歌公司能準(zhǔn)確預(yù)測(cè)美國(guó)冬季流感傳播趨勢(shì)。和官方機(jī)構(gòu)相比,谷歌能提前一兩周預(yù)測(cè)流感爆發(fā),預(yù)測(cè)結(jié)果與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌的工程師們公開(kāi)發(fā)表了一篇論文,不僅預(yù)測(cè)流感即將爆發(fā),并且其預(yù)測(cè)還精確到美國(guó)特定的地區(qū)和州。這讓人們感到十分震驚。準(zhǔn)確預(yù)測(cè)流感疫情,說(shuō)起來(lái)并不復(fù)雜,谷歌一直致力于對(duì)用戶檢索數(shù)據(jù)的分析。用戶求醫(yī)問(wèn)藥等搜索數(shù)據(jù)可謂海量,把這些數(shù)據(jù)再拿來(lái)與美國(guó)疾控中心往年記錄的實(shí)際流感病例信息相比對(duì),就幫助谷歌作出了準(zhǔn)確預(yù)測(cè)。
在日本也有相似的應(yīng)用,日本國(guó)內(nèi)有一個(gè)網(wǎng)站,你只要打開(kāi)這個(gè)網(wǎng)站用自己的社交網(wǎng)站賬號(hào)登錄,就可以在短時(shí)間內(nèi)通過(guò)數(shù)萬(wàn)條社交網(wǎng)站記錄找出可能感冒的人,并通過(guò)過(guò)去的感冒情況和今日的感冒情況進(jìn)行分析,另外該程序還會(huì)結(jié)合氣溫和濕度的變化來(lái)預(yù)測(cè)將來(lái)感冒的流行情況,并制作一個(gè)“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開(kāi)。
對(duì)個(gè)體而言,大數(shù)據(jù)可以為個(gè)人提供個(gè)性化的醫(yī)療服務(wù)。過(guò)去我們?nèi)タ床?,醫(yī)生只能對(duì)我們的當(dāng)下身體情況做出判斷,而在大數(shù)據(jù)的幫助下,將來(lái)的診療可以對(duì)一個(gè)患者的累計(jì)歷史數(shù)據(jù)進(jìn)行分析,并結(jié)合遺傳變異、對(duì)特定疾病的易感性和對(duì)特殊藥物的反應(yīng)等關(guān)系,實(shí)現(xiàn)個(gè)性化的醫(yī)療。還可以在患者發(fā)生疾病癥狀前,提供早期的檢測(cè)和診斷。早期發(fā)現(xiàn)和治療可以顯著降低肺癌給衛(wèi)生系統(tǒng)造成的負(fù)擔(dān),因?yàn)樵缙诘氖中g(shù)費(fèi)用是后期治療費(fèi)用的一半。
在傳統(tǒng)教育模式下,分?jǐn)?shù)就是一切,一個(gè)班上幾十個(gè)人,使用同樣的教材,同一個(gè)老師上課,課后布置同樣的作業(yè)。然而,學(xué)生是千差萬(wàn)別的,在這個(gè)模式下,不可能真正做到“因材施教”。
舉例來(lái)說(shuō),一個(gè)學(xué)生考試得了88分,這個(gè)分?jǐn)?shù)僅僅是一個(gè)數(shù)字,它能代表什么呢?88分背后是家庭背景、努力程度、學(xué)習(xí)態(tài)度、智力水平等,把它們和88分聯(lián)系在一起,這就成了“數(shù)據(jù)”。大數(shù)據(jù)因其數(shù)據(jù)來(lái)源的廣度,有能力去關(guān)注每一個(gè)個(gè)體學(xué)生的微觀表現(xiàn)—他在什么時(shí)候開(kāi)始看書,在什么樣的講課方式下效果最好,在什么時(shí)候?qū)W習(xí)什么科目效果最好,在不同類型的題目上停留多久等等。這些數(shù)據(jù)對(duì)其他個(gè)體都沒(méi)有意義,是高度個(gè)性化表現(xiàn)特征的體現(xiàn)。同時(shí),這些數(shù)據(jù)的產(chǎn)生完全是過(guò)程性的:課堂的過(guò)程,作業(yè)的過(guò)程,師生或同學(xué)的互動(dòng)過(guò)程……而最有價(jià)值的是,這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測(cè)技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此它的采集也非常的自然、真實(shí)。
在大數(shù)據(jù)的支持下,教育將呈現(xiàn)另外的特征:彈性學(xué)制、個(gè)性化輔導(dǎo)、社區(qū)和家庭學(xué)習(xí)、每個(gè)人的成功……大數(shù)據(jù)支撐下的教育,就是要根據(jù)每一個(gè)人的特點(diǎn),解放每一個(gè)人本來(lái)就有的學(xué)習(xí)能力和天分。
看了前面這些,讀者可能要擔(dān)心了,大數(shù)據(jù)包含有包羅萬(wàn)象的數(shù)據(jù),其中不少數(shù)據(jù)涉及個(gè)人的職位、年齡、身體狀況、消費(fèi)水平、旅行習(xí)慣等隱私,那么,在大數(shù)據(jù)時(shí)代,個(gè)人隱私能夠得到保護(hù)嗎?答案是,只要國(guó)家相關(guān)部門實(shí)時(shí)推進(jìn)隱私保護(hù),企業(yè)主動(dòng)落實(shí)隱私保護(hù)責(zé)任,大數(shù)據(jù)產(chǎn)業(yè)在飛速發(fā)展的同時(shí)并不會(huì)對(duì)民眾隱私產(chǎn)生威脅。
在大數(shù)據(jù)產(chǎn)業(yè)中,有兩個(gè)基本的作法,一是符號(hào)化。符號(hào)化是指識(shí)別用戶的時(shí)候,識(shí)別的僅僅是一個(gè)“符號(hào)”,這個(gè)符號(hào)與真實(shí)信息并不相關(guān),系統(tǒng)通過(guò)一定的算法能夠知道多次登錄的是同一個(gè)用戶,但并沒(méi)有辦法反推出這個(gè)人是誰(shuí),因此,電話、住址等信息都沒(méi)法與本人關(guān)聯(lián)起來(lái)。二是用戶特征。用戶特征意味著在大數(shù)據(jù)時(shí)代企業(yè)感興趣的往往是這個(gè)用戶的特征,而不是家庭地址、電話號(hào)碼等真正敏感的信息。例如,系統(tǒng)需要了解本科以上學(xué)歷、月收入10000元以上、已婚等這樣一個(gè)群體,只需要找出符合這些特征的人的特性,并不關(guān)心這個(gè)人是誰(shuí)。這樣也不會(huì)造成隱私的泄露。