本文為進(jìn)一步建立理論基礎(chǔ)依據(jù)和探索開(kāi)展應(yīng)用研究,定義并詳細(xì)解釋了大數(shù)據(jù)概念,剖析大數(shù)據(jù)內(nèi)涵與外延,闡述大數(shù)據(jù)屬性和使用方法。大數(shù)據(jù)蘊(yùn)含著巨大價(jià)值,相信未來(lái)在人體疾病預(yù)防監(jiān)測(cè)、健康關(guān)懷、銀行用戶資信評(píng)估與應(yīng)用、國(guó)家安全恐怖監(jiān)測(cè)與預(yù)警、工業(yè)質(zhì)量監(jiān)控等領(lǐng)域?qū)⒌玫礁訌V泛的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù),大數(shù)據(jù)定義,大數(shù)據(jù)技術(shù),數(shù)據(jù)分析,大數(shù)據(jù)應(yīng)用
目前,最熱詞莫過(guò)于大數(shù)據(jù),各界媒體關(guān)于大數(shù)據(jù)討論層出不窮,大數(shù)據(jù)已成為流行語(yǔ)和現(xiàn)代科學(xué)趨勢(shì)技術(shù)。基于大數(shù)據(jù)的科學(xué)研究也是近年各大數(shù)據(jù)庫(kù)發(fā)稿增長(zhǎng)率較高,在PubMed數(shù)據(jù)庫(kù)中全文檢索包含“big data” 文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.03%、0.04%、0.05%、0.08%、0.10%,五年增長(zhǎng)近2倍。在CNKI數(shù)據(jù)庫(kù)中全文檢索包含“大數(shù)據(jù)”文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.28%、0.39%、0.82%、1.62%、2.54%,五年增長(zhǎng)近8倍。大數(shù)據(jù)研究論文量增長(zhǎng)率如此之高,說(shuō)明大數(shù)據(jù)研究在當(dāng)前科學(xué)研究中呈良好增長(zhǎng)勢(shì)頭,開(kāi)展大數(shù)據(jù)研究學(xué)者不斷增多,進(jìn)行大數(shù)據(jù)研究單位也不斷增多。大數(shù)據(jù)已經(jīng)成為繼石油和礦業(yè)之外,另一種更重要的資源業(yè)態(tài)存在。大數(shù)據(jù)研究熱潮正是各界廣泛認(rèn)識(shí)到大數(shù)據(jù)研究的重要性,還可能更多人已經(jīng)知道大數(shù)據(jù)技術(shù)將會(huì)是一場(chǎng)新技術(shù)革命[1],現(xiàn)在開(kāi)展大數(shù)據(jù)學(xué)術(shù)研究是為未來(lái)使用大數(shù)據(jù)技術(shù),為未來(lái)應(yīng)用大數(shù)據(jù)技術(shù)建立理論基礎(chǔ)和理論依據(jù),也是為未來(lái)更好使用大數(shù)據(jù)開(kāi)展基礎(chǔ)應(yīng)用研究和探索。
大數(shù)據(jù)技術(shù)不同以往任何科學(xué)技術(shù),筆者認(rèn)為大數(shù)據(jù)是一種全新應(yīng)用科學(xué)技術(shù),大數(shù)據(jù)全新科學(xué)技術(shù)是以前人類(lèi)沒(méi)有研究甚至無(wú)從知曉技術(shù),作為應(yīng)用科學(xué)技術(shù)是以實(shí)際應(yīng)用出發(fā)為需求方做的科學(xué)研究。大數(shù)據(jù)熱和各界廣泛重視是因?yàn)?/span>大數(shù)據(jù)技術(shù)未來(lái)應(yīng)用廣泛、應(yīng)用價(jià)值巨大。
2012年3月29日美國(guó)發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2,3],欲大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國(guó)的科研、教育與國(guó)家安全能力。2015年12月10日中國(guó)國(guó)務(wù)院發(fā)布《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》[4],各個(gè)國(guó)家重視大數(shù)據(jù)研究目的都要在未來(lái)科技應(yīng)用領(lǐng)域領(lǐng)先。目前,大數(shù)據(jù)研究也是剛剛開(kāi)始,大數(shù)據(jù)應(yīng)用方向方法都是探索階段,各國(guó)各界大數(shù)據(jù)研究都還處于起步階段,大數(shù)據(jù)研究更重要的是大數(shù)據(jù)應(yīng)用研究投入,更多的是需要加強(qiáng)大數(shù)據(jù)領(lǐng)域人才發(fā)現(xiàn)、挖掘和培養(yǎng)[5],更多的是開(kāi)展大數(shù)據(jù)方法研究和大數(shù)據(jù)應(yīng)用方向研究,大數(shù)據(jù)研究也可以為中國(guó)的“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”,開(kāi)辟一條更廣闊科技創(chuàng)新道路。
當(dāng)前,大數(shù)據(jù)概念已經(jīng)深入人心,大家共同的認(rèn)識(shí)是大數(shù)據(jù)未來(lái)應(yīng)用會(huì)顛覆傳統(tǒng)科學(xué)思維,大數(shù)據(jù)會(huì)使人類(lèi)思考邊界和思考方式發(fā)生顛覆性改變[],這也是學(xué)術(shù)界和各國(guó)政府非常重視大數(shù)據(jù)研究的重要原因。大數(shù)據(jù)已經(jīng)作為大國(guó)國(guó)家發(fā)展戰(zhàn)略,已經(jīng)在各個(gè)國(guó)家科研財(cái)政投入中成為政府政策最重要戰(zhàn)略指導(dǎo)方向開(kāi)展廣泛研究,各國(guó)政府這樣做的目的是為了占領(lǐng)未來(lái)科技制高點(diǎn)和在國(guó)家競(jìng)爭(zhēng)中取得科技優(yōu)勢(shì)。大數(shù)據(jù)在經(jīng)濟(jì)領(lǐng)域和醫(yī)學(xué)領(lǐng)域更是開(kāi)展了廣泛研究,IBM、Google、Microsoft、Facebook進(jìn)行大數(shù)據(jù)研究也是看中了大數(shù)據(jù)未來(lái)無(wú)可限量的價(jià)值[6]。
筆者更愿意在此寫(xiě)一些筆者對(duì)大數(shù)據(jù)思考和看法,寫(xiě)出筆者對(duì)大數(shù)據(jù)“big data” 概念的理解、大數(shù)據(jù)定義、大數(shù)據(jù)應(yīng)用方法和大數(shù)據(jù)未來(lái)更適合應(yīng)用領(lǐng)域。提供大家探討研究,開(kāi)卷有益,下面筆者就幾個(gè)觀點(diǎn)說(shuō)說(shuō)自己看法。
01/大數(shù)據(jù)概念定義
最早提出大數(shù)據(jù)概念時(shí),有人把大數(shù)據(jù)分為四個(gè)“V”[6,7,8]( Volume、Variety、Velocity 和Value) 形容大數(shù)據(jù)的特征,未來(lái)最重要的科技應(yīng)用是大數(shù)據(jù),也有人認(rèn)為是指海量無(wú)法計(jì)算的數(shù)據(jù)[9],英文為“big data”中文為“大數(shù)據(jù)”。筆者認(rèn)為大數(shù)據(jù)描述應(yīng)該屬于大數(shù)據(jù)概念和大數(shù)據(jù)性質(zhì),未來(lái)大數(shù)據(jù)應(yīng)用需要一個(gè)清晰容易被大多數(shù)人理解明確的大數(shù)據(jù)定義,定義大數(shù)據(jù)是為了更好應(yīng)用大數(shù)據(jù),明確大數(shù)據(jù)定義可以供學(xué)者、研究者學(xué)術(shù)研究討論,可以教學(xué)學(xué)生更好學(xué)習(xí)大數(shù)據(jù),也可以為管理部門(mén)決策管理清楚規(guī)范管理邊界。
筆者研究大數(shù)據(jù)多年認(rèn)為最恰當(dāng)大數(shù)據(jù)定義:“大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合,屬性關(guān)系資源可以是量化資源數(shù)據(jù)集合,也可以是定性化資源數(shù)據(jù)集合,這些數(shù)據(jù)資源集合統(tǒng)稱(chēng)為大數(shù)據(jù)?!?/span>
大數(shù)據(jù)定義強(qiáng)調(diào)三點(diǎn)
1.大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合。數(shù)據(jù)已經(jīng)在人類(lèi)生活中廣泛存在,數(shù)據(jù)種類(lèi)眾多,存在形式各異,數(shù)據(jù)內(nèi)涵外延都有不同,數(shù)據(jù)之間相互關(guān)系強(qiáng)弱不同,各類(lèi)數(shù)據(jù)未來(lái)應(yīng)用權(quán)重或是有效性不同,做任何一次大數(shù)據(jù)應(yīng)用都不可能取用人類(lèi)社會(huì)生活所有數(shù)據(jù),應(yīng)該是按照一定屬性關(guān)系取舍數(shù)據(jù),達(dá)到取舍有度應(yīng)用有理,如果是“海量的無(wú)法計(jì)算的”,會(huì)是無(wú)法計(jì)算也會(huì)是無(wú)法應(yīng)用。傳統(tǒng)意義數(shù)據(jù)就應(yīng)該是加減乘除微積分等算法運(yùn)算的數(shù)值以及數(shù)值運(yùn)算的結(jié)論,數(shù)據(jù)發(fā)展到現(xiàn)代已經(jīng)不僅僅是數(shù)字,數(shù)據(jù)的內(nèi)涵和外延已經(jīng)廣泛,數(shù)據(jù)含義更深,但數(shù)據(jù)本身意義就是用來(lái)運(yùn)算,未來(lái)只是數(shù)據(jù)運(yùn)算方法不同而已,數(shù)據(jù)應(yīng)該是無(wú)法計(jì)算的價(jià)值而不是無(wú)法計(jì)算數(shù)量,搞清數(shù)據(jù)屬性關(guān)系,研究清楚數(shù)據(jù)的內(nèi)涵和外延,定義好大數(shù)據(jù)就可以做到更好應(yīng)用數(shù)據(jù)。
2.資源數(shù)據(jù)的集合。資源以往通常應(yīng)用于自然資源、水利資源、自然文化遺產(chǎn)資源等等資源,往往強(qiáng)調(diào)是某某資源,資源的價(jià)值是這種資源已經(jīng)存在。大數(shù)據(jù)定義使用的是資源數(shù)據(jù)強(qiáng)調(diào)是數(shù)據(jù)是資源,數(shù)據(jù)可以是已經(jīng)存在的數(shù)據(jù)資源,也可以是現(xiàn)在沒(méi)有的數(shù)據(jù)資源但未來(lái)會(huì)出現(xiàn)的數(shù)據(jù)資源,所以大數(shù)據(jù)定義使用資源數(shù)據(jù)。
3.資源數(shù)據(jù)的集合,集合是在一起,在一起是存在一起,但存在方式性質(zhì)都可能不同,只表示資源數(shù)據(jù)已經(jīng)因?yàn)閿?shù)據(jù)相關(guān)性可以存在一起,集合在一起。數(shù)據(jù)表現(xiàn)形式是定性數(shù)據(jù)或是定量數(shù)據(jù)
02/數(shù)據(jù)是什么?數(shù)據(jù)內(nèi)涵和外延
大數(shù)據(jù)核心是數(shù)據(jù),數(shù)據(jù)最早是由阿拉伯?dāng)?shù)字組成的一組數(shù)字,但現(xiàn)代大數(shù)據(jù)把數(shù)據(jù)概念大大延展。
大數(shù)據(jù)是建立在數(shù)據(jù)基礎(chǔ)上的科學(xué),任何數(shù)字、圖片、聲音、概念單元、性質(zhì)描述等等都是數(shù)據(jù),可以用一個(gè)數(shù)據(jù),一組數(shù)據(jù)、一個(gè)數(shù)據(jù)集合統(tǒng)稱(chēng)為相應(yīng)大數(shù)據(jù),醫(yī)學(xué)資源數(shù)據(jù)集合統(tǒng)稱(chēng)為醫(yī)學(xué)大數(shù)據(jù)。按照大數(shù)據(jù)定義給出醫(yī)學(xué)大數(shù)據(jù)定義是:具有醫(yī)學(xué)屬性關(guān)系資源數(shù)據(jù)的集合,涵蓋人類(lèi)健康、人體解剖生理病理、遺傳、疾病診斷治療、藥品食品及人類(lèi)生命健康關(guān)系資源數(shù)據(jù)集合。
大數(shù)據(jù)數(shù)據(jù)是什么,什么是大數(shù)據(jù)里面的數(shù)據(jù),筆者更愿意把什么是大數(shù)據(jù)數(shù)據(jù),用數(shù)據(jù)內(nèi)涵和外延探討。筆者認(rèn)為一切都是數(shù)據(jù),能夠使用的都是數(shù)據(jù),這種說(shuō)法不容易讓使用者理解什么是數(shù)據(jù),理解什么是數(shù)據(jù)才能夠使用數(shù)據(jù),尤其對(duì)初期理解應(yīng)用大數(shù)據(jù)的學(xué)者、學(xué)生更加重要。這里筆者努力一些盡量把數(shù)據(jù)內(nèi)涵和外延說(shuō)清楚,供研究探討。大數(shù)據(jù)數(shù)據(jù)應(yīng)該可以理解為人類(lèi)生活中任何詞組、詞條、數(shù)字等等,大數(shù)據(jù)數(shù)據(jù)更容易理解的是一些定性數(shù)據(jù)和量化數(shù)據(jù),定性數(shù)據(jù)比如:大小、高低、長(zhǎng)短、好壞等等,定量數(shù)據(jù)阿拉伯?dāng)?shù)字比如:100萬(wàn),1個(gè)等等。數(shù)據(jù)理解和使用也要結(jié)合使用者個(gè)人知識(shí)結(jié)構(gòu)、教育水平、喜好,甚至宗教信仰,讓使用數(shù)據(jù)者對(duì)數(shù)據(jù)理解和看法不同,筆者認(rèn)為什么都可能是大數(shù)據(jù)數(shù)據(jù),數(shù)據(jù)使用者認(rèn)知水平的提高就會(huì)讓使用數(shù)據(jù)的人本身理解數(shù)據(jù)的內(nèi)涵和外延不同,計(jì)算機(jī)技術(shù)的發(fā)展也會(huì)讓數(shù)據(jù)的內(nèi)涵和外延不同。大數(shù)據(jù)數(shù)據(jù)不管存在任何形式、含義、大小、難易都應(yīng)統(tǒng)稱(chēng)為大數(shù)據(jù)的數(shù)據(jù)。
應(yīng)用大數(shù)據(jù)中數(shù)據(jù)能力更是使用者的認(rèn)知水平、理解水平,哲學(xué)水平、語(yǔ)文水平、尤其是邏輯思維水平中重要能力,同時(shí)需要改變認(rèn)識(shí)數(shù)據(jù)、收集數(shù)據(jù)、分析數(shù)據(jù)的思維[10]??梢缘贸鼋Y(jié)論大數(shù)據(jù)數(shù)據(jù)的內(nèi)涵和外延是由使用數(shù)據(jù)者認(rèn)知水平?jīng)Q定,大數(shù)據(jù)的數(shù)據(jù)是由使用數(shù)據(jù)者定義。
03/大數(shù)據(jù)屬性和使用方法
大數(shù)據(jù)屬性是以各種形式量級(jí)存在,筆者認(rèn)為大數(shù)據(jù)數(shù)據(jù)一個(gè)數(shù)字就是一個(gè)數(shù)據(jù),兩個(gè)數(shù)據(jù)就是兩個(gè)數(shù)據(jù),三個(gè)數(shù)據(jù)就可以稱(chēng)為大數(shù)據(jù)。一、二個(gè)數(shù)據(jù)不能稱(chēng)為大數(shù)據(jù)是因?yàn)椴荒苁褂?,是由現(xiàn)階段計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)決定的,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)提高一定程度才可以決定是否可以使用。三個(gè)數(shù)據(jù)稱(chēng)為大數(shù)據(jù)也是指應(yīng)用,三個(gè)數(shù)據(jù)就可以應(yīng)用在大數(shù)據(jù)技術(shù)上。
大數(shù)據(jù)是建立在計(jì)算機(jī)技術(shù)基礎(chǔ)上全新應(yīng)用科學(xué),大數(shù)據(jù)不同于以往任何科學(xué)技術(shù),大數(shù)據(jù)理論計(jì)算機(jī)應(yīng)用前人類(lèi)沒(méi)有任何論述,人類(lèi)大數(shù)據(jù)使用會(huì)伴隨計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)提高不斷完善。
目前,大數(shù)據(jù)研究的熱潮,更是一種科學(xué)技術(shù)應(yīng)用初期的學(xué)術(shù)探索,當(dāng)下研究的大數(shù)據(jù)包括兩種概念:1、大數(shù)據(jù)的數(shù)據(jù)量大就是大數(shù)據(jù);2、大數(shù)據(jù)技術(shù)方法。
筆者認(rèn)為大數(shù)據(jù)是一門(mén)應(yīng)用科學(xué)技術(shù)。我們從應(yīng)用科學(xué)技術(shù)角度談?wù)劥髷?shù)據(jù)技術(shù),應(yīng)用科學(xué)關(guān)鍵在于使用,簡(jiǎn)述大數(shù)據(jù)使用方法為DATA+MODEL+COMPUTER(簡(jiǎn)稱(chēng)DMC),即:數(shù)據(jù)+模型+計(jì)算機(jī)技術(shù)=大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)應(yīng)用關(guān)鍵是數(shù)據(jù)采集、數(shù)據(jù)標(biāo)示、數(shù)據(jù)應(yīng)用方法,數(shù)據(jù)使用方法需要建立計(jì)算機(jī)計(jì)算模型,計(jì)算機(jī)計(jì)算模型可以稱(chēng)為數(shù)據(jù)模型或需求模型或需求數(shù)據(jù)模型,采集獲得的數(shù)據(jù)應(yīng)用計(jì)算機(jī)技術(shù)讓數(shù)據(jù)運(yùn)算運(yùn)行在軟件編程的需求模型上,大數(shù)據(jù)是數(shù)據(jù)應(yīng)用在計(jì)算機(jī)技術(shù)基礎(chǔ)上的科學(xué)技術(shù),可以說(shuō)大數(shù)據(jù)是計(jì)算機(jī)技術(shù)擴(kuò)展和延伸。
04/大數(shù)據(jù)適合應(yīng)用領(lǐng)域
大數(shù)據(jù)技術(shù)是研究應(yīng)用數(shù)據(jù)方法和未來(lái)數(shù)據(jù)應(yīng)用方向的應(yīng)用科學(xué),大數(shù)據(jù)技術(shù)研究需要相關(guān)屬性基礎(chǔ)數(shù)據(jù)支持,這里的屬性是指屬性數(shù)據(jù)未來(lái)應(yīng)用方向,研究相關(guān)屬性數(shù)據(jù)研判未來(lái)發(fā)展方向和預(yù)測(cè)屬性數(shù)據(jù)通過(guò)大數(shù)據(jù)技術(shù)研判未來(lái)發(fā)展方向的可能概率,研究實(shí)質(zhì)是研究事物未來(lái)趨勢(shì)發(fā)展可能性,大數(shù)據(jù)是預(yù)測(cè)未來(lái)的科學(xué)應(yīng)用數(shù)據(jù)技術(shù)。
人性萬(wàn)事萬(wàn)物發(fā)展有本質(zhì)規(guī)律,人性是心跡,事物是規(guī)律,心跡是趨勢(shì),趨勢(shì)也是規(guī)律,規(guī)律就是可能。數(shù)據(jù)是人和萬(wàn)物發(fā)展過(guò)程產(chǎn)生的資源數(shù)據(jù),資源數(shù)據(jù)按照心跡規(guī)律生產(chǎn)出來(lái),資源數(shù)據(jù)內(nèi)涵是心跡和規(guī)律,資源數(shù)據(jù)外延表達(dá)和反映的是心跡和規(guī)律趨勢(shì)方向。