進入2012年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)大數(shù)據(jù)時代來臨[1]據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。
大數(shù)據(jù)
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。著云臺的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。[6]
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運營中生成、累積的用戶網(wǎng)絡行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。
大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數(shù)據(jù)公司(IDC)的研究結果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達1.82ZB,相當于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。
說起來很復雜,手機不好打字長話短說,互聯(lián)網(wǎng)+大數(shù)據(jù)說白了就是把線下經(jīng)營活動搬到線上,整個交易包括流通的運行軌跡的數(shù)據(jù)存入數(shù)據(jù)庫,企業(yè)利用數(shù)據(jù)作為參考,從而企業(yè)能做出正確的決定。當然還有很多,這里只說了很小一部分,希望對你有所參考,望采納!
事實上,所謂“大數(shù)據(jù)時代”的說法并不新鮮,早在2010年,“大數(shù)據(jù)”的概念就已由美國數(shù)據(jù)科學家維克托·邁爾·舍恩伯格系統(tǒng)地提出。他在 大數(shù)據(jù)時代一書中說,以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會被認為已經(jīng)沒有用處了。比如,在飛機降落之后,票價數(shù)據(jù)就沒有用了;一個網(wǎng)絡檢索命令完成之后,這項指令也已進入過去時。但如今,數(shù)據(jù)已經(jīng)成為一種商業(yè)資本,可以創(chuàng)造新的經(jīng)濟利益。
數(shù)據(jù)能夠成為一種資本,與移動互聯(lián)網(wǎng)有密切關系。隨著智能手機、平板電腦等移動數(shù)碼產(chǎn)品的“白菜化”,Wi-Fi信號覆蓋的無孔不入,越來越多的人不再有“在線時間”和“不在線時間”之分,只要他們愿意,便可幾乎24小時一刻不停地掛在線上;在線交易、在線支付、在線注冊等網(wǎng)絡服務的普及固然方便了用戶,卻也讓人們更加依賴網(wǎng)絡,依賴五花八門的網(wǎng)上平臺。
而隨著科技的進步,以往需要幾盒軟盤或一張光盤保存的信息,如今只需一片指甲蓋大小的芯片,即可全部儲存而且綽綽有余;以往需要電腦、顯示器、讀卡器等專門設備才能讀取的數(shù)碼信息載體,如今或許只需一部智能手機和一個免費下載的APP第三方應用程序,便可將數(shù)據(jù)一覽無余。
大數(shù)據(jù)時代的科技進步,讓人們身上更多看似平常的東西成為“移動數(shù)據(jù)庫”,如帶有存儲芯片的第二代銀行卡、信用卡,帶有芯片讀取功能的新型護照、駕駛證、社???、圖書證,等等。在一些發(fā)達國家,官方為了信息錄入方便,還不斷將多種“移動數(shù)據(jù)庫”的功能組合成一體。
數(shù)字化時代使得信息搜集、歸納和分析變得越來越方便,傳統(tǒng)的隨機抽樣被“所有數(shù)據(jù)的匯攏”所取代,基于隨機抽樣而變得重要的一些屬性,如抽樣的精確性、邏輯思辨和推理判斷能力,就變得不那么重要,盡可能匯集所有數(shù)據(jù),并根據(jù)這些數(shù)據(jù)得出趨勢和結論才至為關鍵。簡單說,以往的思維決斷模式是基于“為什么”,而在“大數(shù)據(jù)時代”,則已可直接根據(jù)“是什么”來下結論,由于這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此,將更精確,更有預見性。
不過,一些學者指出,由于“大數(shù)據(jù)”理論過于依靠數(shù)據(jù)的匯集,那么一旦數(shù)據(jù)本身有問題,在“只問有什么,不問為什么”的模式下,就很可能出現(xiàn)“災難性大數(shù)據(jù)”,即因為數(shù)據(jù)本身的問題,而做出錯誤的預測和決策。
(如能幫到你,望您采納??!謝謝?。。?
"大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結構化數(shù)據(jù)范疇,囊括了半結構化和非結構化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;谌绱说恼J識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個算法得花上好幾年才能得出結論,那大數(shù)據(jù)的價值也就無從說起了。
大數(shù)據(jù)分析最終要的應用領域之一就是預測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預測未來的數(shù)據(jù)。
大數(shù)據(jù)分析廣泛應用于網(wǎng)絡數(shù)據(jù)挖掘,可從用戶的搜索關鍵詞、標簽關鍵詞、或其他輸入語義,分析,判斷用戶需求,從而實現(xiàn)更好的用戶體驗和廣告匹配。
大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學術研究還是在商業(yè)應用領域,都能夠保證分析結果的真實和有價值。 大數(shù)據(jù)分析的基礎就是以上五個方面,當然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
當下我國大數(shù)據(jù)研發(fā)建設應在以下四個方面著力
一是建立一套運行機制。大數(shù)據(jù)建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)合,搞好頂層設計。
二是規(guī)范一套建設標準。沒有標準就沒有系統(tǒng)。應建立面向不同主題、覆蓋各個領域、不斷動態(tài)更新的大數(shù)據(jù)建設標準,為實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡互連、信息互通、資源共享奠定基礎。
三是搭建一個共享平臺。數(shù)據(jù)只有不斷流動和充分共享,才有生命力。應在各專用數(shù)據(jù)庫建設的基礎上,通過數(shù)據(jù)集成,實現(xiàn)各級各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
四是培養(yǎng)一支專業(yè)隊伍。大數(shù)據(jù)建設的每個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術、懂管理的大數(shù)據(jù)建設專業(yè)隊伍。......
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術,是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴展的存儲系統(tǒng)。
大數(shù)據(jù)有四個基本特征:一、數(shù)據(jù)體量巨大(Vomule),二、數(shù)據(jù)類型多樣(Variety),三、處理速度快(Velocity),四、價值密度低(Value)。
在大數(shù)據(jù)的領域現(xiàn)在已經(jīng)出現(xiàn)了非常多的新技術,這些新技術將會是大數(shù)據(jù)收集、存儲、處理和呈現(xiàn)最強有力的工具。大數(shù)據(jù)處理一般有以下幾種關鍵性技術:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)。
大數(shù)據(jù)處理之一:采集。大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數(shù)據(jù)處理之二:導入和預處理。雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務的實時計算需求。
導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。
大數(shù)據(jù)處理之三:統(tǒng)計和分析。統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
大數(shù)據(jù)處理之四:挖掘。與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個大數(shù)據(jù)處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理。
大數(shù)據(jù)的處理方式大致分為數(shù)據(jù)流處理方式和批量數(shù)據(jù)處理方式兩種。數(shù)據(jù)流處理的方式適合用于對實時性要求比較高的場合中。并不需要等待所有的數(shù)據(jù)都有了之后再進行處理,而是有一點......余下全文>>
你是要說大數(shù)據(jù)時代存在的大數(shù)據(jù)的典型的案例與應用吧??典型的就是啤酒和尿布的例子啊,為什么啤酒和尿布在一起會促進銷量呢?尿布都是父親去買,看到啤酒自然就想犒勞一下自己了。就是這么個道理。檸檬學院大數(shù)據(jù)。
大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!按髷?shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數(shù)據(jù)時代》中提出,指不用隨機分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。[1]
對于“大數(shù)據(jù)”(Big data)研究機構Gartner給出了定義,“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。