現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對(duì)整個(gè)IT架構(gòu)進(jìn)行革命性的重構(gòu)。而存儲(chǔ)能力的增長(zhǎng)遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長(zhǎng),因此設(shè)計(jì)最合理的分層存儲(chǔ)架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動(dòng)已成為IT系統(tǒng)最大的開(kāi)銷(xiāo),目前傳送大數(shù)據(jù)最高效也是最實(shí)用的方式是通過(guò)飛機(jī)或地面交通工具運(yùn)送磁盤(pán)而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時(shí)代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰?span>數(shù)據(jù)轉(zhuǎn),將計(jì)算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計(jì)算。應(yīng)對(duì)處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個(gè)問(wèn)題值得重視:
1、大數(shù)據(jù)對(duì)科學(xué)規(guī)范的挑戰(zhàn)
大數(shù)據(jù)帶來(lái)了新的科研范式
科研第四范式是思維方式的大變化,已故圖靈獎(jiǎng)得主吉姆格雷提出的數(shù)據(jù)密集型科研“第四范式”,將大 數(shù)據(jù)科研從第三范式中分離出來(lái)單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨?span>數(shù)據(jù)模型的傳統(tǒng)研究方式。PB級(jí)數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以 分析數(shù)據(jù)。將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)機(jī)群中,只要有相關(guān)關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法可以發(fā)現(xiàn)過(guò)去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識(shí)甚至新規(guī)律。
大數(shù)據(jù)如何應(yīng)用于開(kāi)放的研究
大數(shù)據(jù)基于對(duì)海量數(shù)據(jù)的分析產(chǎn)生價(jià)值,那么如何獲得海量數(shù)據(jù)來(lái)讓大數(shù)據(jù)真正落地呢?這其中最不可或 缺的一個(gè)環(huán)節(jié)就是數(shù)據(jù)開(kāi)放?,F(xiàn)在推進(jìn)數(shù)據(jù)開(kāi)放更為重要的是通過(guò)數(shù)據(jù)的共享來(lái)產(chǎn)生更多的價(jià)值。數(shù)據(jù)開(kāi)放能夠提高社會(huì)運(yùn)行效率,積極整合各方公開(kāi)的數(shù)據(jù),建立 基于大數(shù)據(jù)的城市規(guī)劃來(lái)緩解交通和社會(huì)治安問(wèn)題。 數(shù)據(jù)開(kāi)放能夠激發(fā)巨大的商業(yè)價(jià)值,數(shù)據(jù)開(kāi)放是面向社會(huì)大眾的開(kāi)放,任何人只要有能力都可以用它來(lái)創(chuàng)造 新的商機(jī)。
加強(qiáng)數(shù)據(jù)開(kāi)放,為大數(shù)據(jù)發(fā)展打牢基礎(chǔ)。在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開(kāi)放共享已經(jīng)成為在 數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢(shì)的關(guān)鍵。促進(jìn)商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的開(kāi)放與共享。商業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)的共享應(yīng)用,不僅能促進(jìn)相關(guān)產(chǎn)業(yè)的飛速發(fā)展,產(chǎn)生巨大的經(jīng)濟(jì)價(jià)值,也 能給我們的生活帶來(lái)巨大的便利。經(jīng)常網(wǎng)購(gòu)的人會(huì)有這樣一種體驗(yàn)。很多電商網(wǎng)站能夠在我們買(mǎi)書(shū)的時(shí)候,推薦我們剛好喜歡的其他書(shū)籍,這正是網(wǎng)站根據(jù)成千上萬(wàn) 甚至上億人的個(gè)人數(shù)據(jù)的統(tǒng)計(jì)分析而得出的,但是我們也感受到了這樣強(qiáng)大的數(shù)據(jù)分析能力對(duì)我們“隱私權(quán)”的沖擊。因此,完善個(gè)人隱私保護(hù)等相關(guān)立法,對(duì)哪些 個(gè)人數(shù)據(jù)可以進(jìn)行商業(yè)化應(yīng)用、應(yīng)用范圍如何界定、數(shù)據(jù)濫用應(yīng)承擔(dān)哪些責(zé)任等具體問(wèn)題做出規(guī)范,從而保證數(shù)據(jù)開(kāi)放工作穩(wěn)步推進(jìn),為大數(shù)據(jù)發(fā)展應(yīng)用打好根基。
重現(xiàn)大數(shù)據(jù)研究結(jié)果
數(shù)據(jù)量的增大,會(huì)帶來(lái)規(guī)律的喪失和嚴(yán)重失真。維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時(shí)代》中也 指出“數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,一些錯(cuò)誤的數(shù)據(jù)會(huì)混進(jìn)數(shù)據(jù)庫(kù),”此外,大數(shù)據(jù)的另外一層定義,多樣性,即來(lái)源不同的各種信息混雜在一起會(huì)加大 數(shù)據(jù)的混亂程度,統(tǒng)計(jì)學(xué)者和計(jì)算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測(cè)量會(huì)導(dǎo)致出現(xiàn)“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增加。大數(shù)據(jù)意味著更多的信息,但同時(shí)也意味著更 多的虛假關(guān)系信息,海量數(shù)據(jù)帶來(lái)顯著性檢驗(yàn)的問(wèn)題,將使我們很難找到真正的關(guān)聯(lián)。
我們以一個(gè)實(shí)際的案例來(lái)看一下樣本量不斷增大之后,會(huì)出現(xiàn)的問(wèn)題:
上表是關(guān)于某年網(wǎng)絡(luò)游戲歷程擴(kuò)散的回歸分析,當(dāng)樣本量是5241個(gè)的時(shí)候,你會(huì)發(fā)現(xiàn)用一個(gè)簡(jiǎn)單的線 性回歸擬合這個(gè)數(shù)據(jù),年齡、文化程度、收入這三個(gè)變量顯著,當(dāng)我們把樣本量增加到10482個(gè)的時(shí)候,發(fā)現(xiàn)獨(dú)生子女和女性開(kāi)始顯著,增加到20964個(gè)的 時(shí)候,體制外這個(gè)變量也開(kāi)始顯著,當(dāng)樣本增加到33萬(wàn)的時(shí)候,所有變量都具有顯著性,這意味著世間萬(wàn)物都是有聯(lián)系的。樣本大到一定程度的時(shí)候,很多結(jié)果自 然就會(huì)變得顯著,會(huì)無(wú)法進(jìn)行推論,或者得出虛假的統(tǒng)計(jì)學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會(huì)進(jìn)行分析)的存在將會(huì)使這種虛假關(guān)系隨著數(shù)據(jù)量的增長(zhǎng)而 增長(zhǎng),我們將很難再接觸到真相。
事實(shí)上,真實(shí)的規(guī)律是這樣的:
對(duì)一個(gè)社會(huì)現(xiàn)象進(jìn)行客觀深刻準(zhǔn)確的分析,對(duì)事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時(shí)代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問(wèn)題的過(guò)程中意識(shí)到海量數(shù)據(jù)所帶來(lái)的復(fù)雜性,堅(jiān)持分析方法和理論的不斷創(chuàng)新。
大數(shù)據(jù)研究結(jié)果可信與否
《大數(shù)據(jù)時(shí)代》一書(shū)的作者維克托·邁爾-舍恩伯格說(shuō),大數(shù)據(jù)的核心就是預(yù)測(cè)。它通常被視為人工智能 的一部分,或者更確切地說(shuō),被視為一種機(jī)器學(xué)習(xí)。他認(rèn)為,大數(shù)據(jù)大大解放了人們的分析能力。一是可以分析更多的數(shù)據(jù),甚至是相關(guān)的所有數(shù)據(jù),而不再依賴(lài)于 隨機(jī)抽樣;二是研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對(duì)因果關(guān)系的探究,而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價(jià)值。因此,當(dāng) 人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好,開(kāi)始挖掘相關(guān)關(guān)系的好處時(shí),一個(gè)用數(shù)據(jù)預(yù)測(cè)的時(shí)代才會(huì)到來(lái)。
不可否認(rèn),大數(shù)據(jù)標(biāo)志著人類(lèi)在尋求量化和認(rèn)識(shí)世界的道路上前進(jìn)了一步。這是計(jì)算技術(shù)的進(jìn)步,是人類(lèi) 決策工具的進(jìn)步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點(diǎn)球成金》,講述了一個(gè)真實(shí)的故事,介紹了奧克蘭運(yùn)動(dòng)家棒球隊(duì)總經(jīng)理比利·比 恩的經(jīng)營(yíng)哲學(xué),描述了他拋棄幾百年延續(xù)的選擇球員的慣常做法,采用了一種依靠電腦程序和數(shù)學(xué)模型分析比賽數(shù)據(jù)來(lái)選擇球員的方法。比利·比恩的成功稱(chēng)得上是 對(duì)球探們經(jīng)驗(yàn)決策的顛覆,是讓數(shù)據(jù)說(shuō)話的成功范例。正如維克托·邁爾-舍恩伯格將大數(shù)據(jù)視為人工智能的一部分,視為機(jī)器學(xué)習(xí)的一種應(yīng)用一樣,數(shù)據(jù)決策和數(shù) 據(jù)旁證的博弈其實(shí)是人和機(jī)器的博弈。即便是有一將難求的數(shù)據(jù)科學(xué)家的協(xié)助,大數(shù)據(jù)決策依然是輔助系統(tǒng)。
在這一階段,云計(jì)算是基礎(chǔ)設(shè)施,大數(shù)據(jù)是服務(wù)工具,兩者將滿足特定語(yǔ)境下的、短線的市場(chǎng)需求,更重要的是它們還能發(fā)揮其在非特定語(yǔ)境下破解社會(huì)難題的價(jià)值。換言之,大數(shù)據(jù)將演繹“信息轉(zhuǎn)化為數(shù)據(jù),數(shù)據(jù)集聚成知識(shí),知識(shí)涌現(xiàn)出智慧”的進(jìn)程。
2、大數(shù)據(jù)帶來(lái)的社會(huì)問(wèn)題
在基于社交媒體和數(shù)字化記憶的大數(shù)據(jù)時(shí)代,人們不僅擔(dān)心無(wú)處不在的“第三只眼”,而且擔(dān)心隱私被二 次利用。因?yàn)?,亞馬遜監(jiān)視著我們的購(gòu)物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁(yè)瀏覽習(xí)慣,微博似乎什么都知道,包括我們的社交關(guān)系網(wǎng)……可怕的不是這些隱私數(shù)據(jù),而是 大數(shù)據(jù)的全數(shù)據(jù)分析、模糊計(jì)算和重關(guān)聯(lián)卻不求因果的特性,讓隱私數(shù)據(jù)與社交網(wǎng)絡(luò)等關(guān)聯(lián)起來(lái)。按照維克托·邁爾-舍恩伯格的說(shuō)法,危險(xiǎn)不再是隱私的泄漏,而 是被預(yù)知的可能性——這些能夠預(yù)測(cè)我們可能生病、拖欠還款和犯罪的算法會(huì)讓我們無(wú)法購(gòu)買(mǎi)保險(xiǎn),無(wú)法貸款,甚至實(shí)施犯罪前就被預(yù)先逮捕。
無(wú)論如何,大數(shù)據(jù)正在推動(dòng)產(chǎn)權(quán)認(rèn)知和結(jié)構(gòu)的變革,以往IT產(chǎn)業(yè)鏈的主宰者或?qū)⒃谧兏镏性庥鰶_擊。大 數(shù)據(jù)的魅力在于它能夠讓企業(yè)在無(wú)邊界的數(shù)據(jù)海洋里遨游,發(fā)現(xiàn)社會(huì)進(jìn)步的內(nèi)在韻律,捕捉社會(huì)發(fā)展的先行參數(shù)。比如從消費(fèi)者興趣圖譜中萃取研發(fā)創(chuàng)新智慧,而不 局限于產(chǎn)品關(guān)聯(lián)性分析;比如對(duì)企業(yè)內(nèi)外部利益相關(guān)者群體智慧的發(fā)掘,開(kāi)展企業(yè)和產(chǎn)業(yè)的健康診斷,而不局限于短效的精益管理;比如對(duì)地震等自然災(zāi)害的預(yù)警, 構(gòu)架社會(huì)應(yīng)急機(jī)制……
3、大數(shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn)
抽樣分析+全數(shù)據(jù)驗(yàn)證的分析思路
增加樣本容易,降低算法復(fù)雜度難。維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析思維轉(zhuǎn)變時(shí)提 到過(guò)三個(gè)觀點(diǎn),其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分數(shù)據(jù)。全數(shù)據(jù)一時(shí)甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎 帶有保守主義色彩,這種看法無(wú)疑是對(duì)大數(shù)據(jù)和抽樣二者都存在偏見(jiàn)和不足,如果認(rèn)為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說(shuō)話,那么在方法論上就是狹隘 的。
這里也涉及了全數(shù)據(jù)的第二個(gè)問(wèn)題全(暫且假定我們通過(guò)人們?cè)诠雀枭陷斎胨阉鳁l目就找到了真正意義上 的全:谷歌利用搜索記錄而預(yù)測(cè)到流感爆發(fā)的案例被廣為引用以說(shuō)明數(shù)據(jù)自會(huì)說(shuō)話,當(dāng)人們開(kāi)始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病 毒的關(guān)系,能夠成功的預(yù)測(cè)一場(chǎng)流感)數(shù)據(jù)確實(shí)能看到變化,通過(guò)變化作出“預(yù)測(cè)”,但無(wú)法解釋變化的影響因素,維克托·邁爾·舍恩伯格對(duì)此的回答是:我們要 相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。
《文學(xué)文摘》依靠紙媒時(shí)代巨大的發(fā)行量獲得240萬(wàn)民眾的數(shù)據(jù),而蓋洛普僅在嚴(yán)格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過(guò)“大數(shù)據(jù)”的簡(jiǎn)單算法的真實(shí)案例。
沒(méi)有抽樣的擬合,直接面對(duì)大數(shù)據(jù),將使我們失去對(duì)人的了解,對(duì)真實(shí)規(guī)律的追尋,畢竟不是所有的社會(huì) 事實(shí)都一場(chǎng)流感一樣易于預(yù)測(cè),況且即便是谷歌被廣為贊譽(yù)的流感預(yù)測(cè)案例也被認(rèn)為存在問(wèn)題:在與傳統(tǒng)的流感監(jiān)測(cè)數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實(shí)時(shí)更新的 Google流感趨勢(shì)被發(fā)現(xiàn)明顯高估了流感峰值水平。科學(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而 只能補(bǔ)充傳統(tǒng)的流行病監(jiān)測(cè)網(wǎng)絡(luò)。他們正在開(kāi)發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報(bào) 道。
分析理解大數(shù)據(jù)——盲人摸象
數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會(huì)變得更有價(jià)值。但封閉的數(shù)據(jù)環(huán)境會(huì)阻礙數(shù)據(jù) 價(jià)值的實(shí)現(xiàn),對(duì)企業(yè)應(yīng)用和研究發(fā)現(xiàn)來(lái)講都是如此,因此我們需要合理的機(jī)制在保護(hù)數(shù)據(jù)安全的情況下開(kāi)放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正 的第三方數(shù)據(jù)分析公司、研究機(jī)構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實(shí)世界的界限,進(jìn)行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實(shí) 現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會(huì)對(duì)產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。
4、大數(shù)據(jù)管理的挑戰(zhàn)
每一種非結(jié)構(gòu)化數(shù)據(jù)均可被視為大數(shù)據(jù)。這包括在社交網(wǎng)站上的數(shù)據(jù)、在線金融交易數(shù)據(jù)、公司記錄、氣 象監(jiān)測(cè)數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和其他監(jiān)控、研究和開(kāi)發(fā)數(shù)據(jù)。大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù) 雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問(wèn)題。開(kāi)發(fā)可靠的分布式文件系 統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融 合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù);開(kāi)發(fā)大數(shù)據(jù)可視化技術(shù)。
通過(guò)隔離管理大數(shù)據(jù)存儲(chǔ)
如果有多個(gè)存儲(chǔ)箱,那么將數(shù)據(jù)庫(kù)、線交易處理(OLTP)和微軟Exchange應(yīng)用到特定的存儲(chǔ)系統(tǒng)是個(gè)不錯(cuò)的選擇。其它存儲(chǔ)系統(tǒng)則用于大數(shù)據(jù)應(yīng)用如門(mén)戶網(wǎng)站,在線流媒體應(yīng)用等。
如果沒(méi)有存儲(chǔ)系統(tǒng),將特定的前端存儲(chǔ)端口到數(shù)據(jù)庫(kù),OLTP等等;致力于大數(shù)據(jù)應(yīng)用到其他端口。背 后的基本原理是使用專(zhuān)用端口,而大數(shù)據(jù)流量是以千字節(jié)或兆字節(jié)衡量,OLTP應(yīng)用流量是以每秒的輸入/輸出操作(IOPS)衡量,因?yàn)?span>數(shù)據(jù)塊的大小是比大 數(shù)據(jù)更大而比OLTP應(yīng)用程序更小。OLTP應(yīng)用程序是CPU密集型的,而大數(shù)據(jù)應(yīng)用程序更多的使用前端端口。因此,更多的端口可以專(zhuān)注于大數(shù)據(jù)應(yīng)用。
專(zhuān)業(yè)的大數(shù)據(jù)存儲(chǔ)管理
兼容數(shù)據(jù)管理的存儲(chǔ)系統(tǒng)。如EMCIsilon的集群存儲(chǔ)系統(tǒng)對(duì)于大數(shù)據(jù)存儲(chǔ)管理是一個(gè)更好的選擇,因?yàn)樵谝粋€(gè)單一的文件系統(tǒng)中大數(shù)據(jù)能增長(zhǎng)到多字節(jié)的數(shù)據(jù)。
大數(shù)據(jù)分析
除了存儲(chǔ),大數(shù)據(jù)管理的另一項(xiàng)大的挑戰(zhàn)是數(shù)據(jù)分析。一般的數(shù)據(jù)分析應(yīng)用程序無(wú)法很好的處理大數(shù)據(jù), 畢竟涉及到大量的數(shù)據(jù)。采用專(zhuān)門(mén)針對(duì)大數(shù)據(jù)的管理和分析的工具,這些應(yīng)用程序運(yùn)行在集群存儲(chǔ)系統(tǒng)上,緩解大數(shù)據(jù)的管理。管理大數(shù)據(jù)的另一個(gè)需要重點(diǎn)考慮的 是未來(lái)的數(shù)據(jù)增長(zhǎng)。你的大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)應(yīng)該是可擴(kuò)展的,足以滿足未來(lái)的存儲(chǔ)需求。
大數(shù)據(jù)的存儲(chǔ)管理和云計(jì)算
目前正在尋找云計(jì)算服務(wù)來(lái)進(jìn)行存儲(chǔ)和管理海量數(shù)據(jù)。而選擇云服務(wù)來(lái)大型數(shù)據(jù)存儲(chǔ)管理,可以確保數(shù)據(jù)的所有權(quán)。有權(quán)選擇將數(shù)據(jù)移入或移出云服務(wù),而不被供應(yīng)商鎖定。
面臨的挑戰(zhàn)
(1)大數(shù)據(jù)集的挑戰(zhàn)
如下圖為數(shù)據(jù)到知識(shí)的演化過(guò)程示意圖:
缺少大數(shù)據(jù)復(fù)雜度冗余度的度量方法
缺少確保近似算法精度分析方法
缺少根據(jù)分布知識(shí)對(duì)大數(shù)據(jù)進(jìn)行抽樣的方法
(2)數(shù)據(jù)復(fù)雜性挑戰(zhàn)
挖掘?qū)?huì)很大程度地提高數(shù)據(jù)分析的性能和靈活性。源于數(shù)據(jù)倉(cāng)庫(kù)的數(shù) 據(jù)立方體計(jì)算技術(shù)和OLAP(在線分析處理)技術(shù)極大地提高了大型數(shù)據(jù)庫(kù)多維分析的性能。除了傳統(tǒng)的數(shù)據(jù)立方體技術(shù),近期的研究致力于構(gòu)建回歸立方體、預(yù) 測(cè)立方體以及其他的面向統(tǒng)計(jì)的復(fù)雜數(shù)據(jù)立方體。這樣的多維或高維分析工具對(duì)分層多維數(shù)據(jù)的有效分析提供了保證。
(3)數(shù)據(jù)動(dòng)態(tài)增長(zhǎng)的挑戰(zhàn)
研究?jī)?nèi)容
(1)研究分布式并行計(jì)算環(huán)境下的大數(shù)據(jù)大數(shù)據(jù)分析的基本策略
I.與數(shù)據(jù)分布相聯(lián)系的分治策略
II.與算法機(jī)理相結(jié)合的并行策略
(2)研究復(fù)雜度降精度可控的新的大數(shù)據(jù)分析算法
I.大數(shù)據(jù)分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析、異常發(fā)現(xiàn)等
(3)大數(shù)據(jù)分析平臺(tái)研發(fā)