分類和預測是兩種大數(shù)據(jù)分析的方法,它們可用于抽取能夠描述重要數(shù)據(jù)集合或預測未來數(shù)據(jù)趨勢的模型。 分類方法用于預測數(shù)據(jù)對象的離散類別;而預測則用于預測數(shù)據(jù)對象的連續(xù)取值。許多分類和預測方法已被機器學習、專家系統(tǒng)、統(tǒng)計學和神經生物學等方麗的研究 者提出,其中的大部分算法屬于駐留內存算法,通常假定的數(shù)據(jù)量很小,最初的數(shù)據(jù)挖掘方法大多都是在這些方法及基于內存基礎上所構造的算法。目前數(shù)據(jù)挖掘方 法都要求,目前的數(shù)據(jù)挖掘研究已經在這些工作基礎之上得到了很大的改進,開發(fā)了具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力的分類和預測技術,這些技術結合了并 行和分布處理的思想。
1、數(shù)據(jù)變小——分類算法
分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類 模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到摸個給定的類別中??梢詰玫缴婕暗綉梅诸?、趨勢預測中,如淘寶商鋪將用戶在一段時間內的購買情況劃分成不同的類,根據(jù) 情況向用戶推薦關聯(lián)類的商品,從而增加商鋪的銷售量。
空間覆蓋算法-基于球鄰域的空間劃分
空間覆蓋算法-仿生模式識別
空間覆蓋算法-視覺分類方法
VCA把數(shù)據(jù)看作一幅圖像,核心是基于尺度空間理論,選擇合適的尺度使得同類樣本區(qū)域融合在一起。
分類超曲面算法HSC
設訓練樣本所在空間為一封閉維方體區(qū)域,將此區(qū)域按照一定細分規(guī)則劃分成若干小區(qū)域,使每個小區(qū)域只包含同一類樣本點,并用樣本點的類別標定該區(qū)域,合并相鄰同類區(qū)域邊界,獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點,根據(jù)分類判別定理判斷樣本點所在的類別。
特點:
(1)通過特征區(qū)域細化直接解決非線性分類問題,不需要考慮使用何種函數(shù),不需要升維變換。
(2)通用可操作的分類超曲面構造法,基于分類超曲面的方法通過區(qū)域合并計算獲得分類超曲面對空間進行劃分
(3)獨特、簡便、易行的分類判別方法,基于分類超曲面的方法是基于Jordan定理的分類判斷算法,使得基于非凸的超曲面的分類判別變得簡便、易行。
2、極小覆蓋子集
覆蓋型分類算法的極小覆蓋子集——對特定的訓練樣本集,若其子樣本集訓練后得到的分類模型與與原樣本集訓練后得到的分類模型相同,則稱子樣本集是原樣本集的一個覆蓋。在一個樣本集的所有覆蓋中,包含樣本個數(shù)最少的覆蓋稱為樣本集的極小覆蓋子集。
(1)計算極小覆蓋子集的基本步驟:
用一個方形區(qū)域覆蓋所有樣本點;將該區(qū)域劃分成一系列小區(qū)域 (單元格),直到每個小區(qū)域內包含的樣本點都屬于同一類別;將落在同一小區(qū)域內的樣本點中選擇且僅選擇一個樣本構成極小覆蓋子集。
(2)采樣受限于極小覆蓋子集
全樣本空間必然包含極小覆蓋子集,任意一個數(shù)據(jù)集未必包含完整的極小覆蓋子集。大數(shù)據(jù)環(huán)境下,極小覆蓋子集中的樣本更多地包含在大數(shù)據(jù)中,較多的數(shù)據(jù)可以戰(zhàn)勝較好的算法、再多的數(shù)據(jù)亦不會超過極小覆蓋子集的代表性、再好的提升手段亦不會超過極小覆蓋子集確定的精度。
3、回歸大數(shù)據(jù)分析
回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達數(shù)據(jù)映射的關系來發(fā)現(xiàn)屬性值之間的依賴關 系。它可以應用到對數(shù)據(jù)序列的預測及相關關系的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售 趨勢作出預測并做出針對性的營銷改變。
4、 聚類
聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關聯(lián)性很低。
5、關聯(lián)規(guī)則
關聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關聯(lián)或相互關系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出 現(xiàn)。關聯(lián)規(guī)則的挖掘過程主要包括兩個階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項目組;第二極端為從這些高頻項目組產生關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘技術 已經被廣泛應用于金融行業(yè)企業(yè)中用以預測客戶的需求,各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應信息來改善自身的營 銷。
6 、神經網絡方法
神經網絡作為一種先進的人工智能技術,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非 線性的以及那些以模糊、不完整、不嚴密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點十分適合解決數(shù)據(jù)挖掘的問題。典型的神經網絡模型主要分為三大類:第一 類是以用于分類預測和模式識別的前饋式神經網絡模型,其主要代表為函數(shù)型網絡、感知機;第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經網絡模型,以 Hopfield 的離散模型和連續(xù)模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經網絡有多種模型及算法,但在特定領域 的數(shù)據(jù)挖掘中使用何種模型及算法并沒有統(tǒng)一的規(guī)則,而且人們很難理解網絡的學習及決策過程。
7、Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。
大數(shù)據(jù)技術能夠將隱藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經濟活動提供依據(jù),從而提高 各個領域的運行效率,大大提高整個社會經濟的集約化程度。根據(jù)ESM國際電子商情針大數(shù)據(jù)應用現(xiàn)狀和趨勢的調查顯示:被調查者最關注的大數(shù)據(jù)技術中,排在 前五位的分別是大數(shù)據(jù)分析(12.91%)、云數(shù)據(jù)庫(11.82%)、Hadoop(11.73%)、內存數(shù)據(jù)庫(11.64%)以及數(shù)據(jù)安全 (9.21%)。Hadoop已不再是人們心目中僅有的大數(shù)據(jù)技術,而大數(shù)據(jù)分析成為最被關注的技術。從中可以看出,人們對大數(shù)據(jù)的了解已經逐漸深入,關 注的技術點也越來越多。既然大數(shù)據(jù)分析是最被關注的技術趨勢,那么大數(shù)據(jù)分析中的哪項功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實時分析 (21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調查結果可以看出:在未來一兩年中有迫切部署大數(shù)據(jù)的需求,并且已經 從一開始的基礎設施建設,逐漸發(fā)展為對大數(shù)據(jù)分析和整體大數(shù)據(jù)解決方案的需求。
大數(shù)據(jù)將重點應用于以下幾大大領域:商業(yè)智能、政府決策、公共服務等。
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石
IBM:IBM大數(shù)據(jù)提供的服務包括數(shù)據(jù)分析,文本分析,藍色云杉;業(yè)務事件處 理;IBM Mashup Center的計量,監(jiān)測,和商業(yè)化服務(MMMS)。 IBM的大數(shù)據(jù)產品組合中的最新系列產品的 InfoSphere bigInsights,基于Apache Hadoop。 該產品組合包括:打包的Apache Hadoop的軟件和服務,代 號是bigInsights核心,用于開始大數(shù)據(jù)分析。軟件被稱為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡單、直觀的提取、批注相關信息為 金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案 微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫綜合應用部門) 合作目標是開發(fā)了一系列能 夠提升生產力和提高決策速度的設備。
EMC:EMC 斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個產品。
Oracle:Oracle大數(shù)據(jù)機與Oracle Exalogic中間件云服務器、Oracle Exadata數(shù)據(jù)庫云服務器以及Oracle Exalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產品組合。
大數(shù)據(jù)促進了政府職能變革
重視應用大數(shù)據(jù)技術,盤活各地云計算中心資產:把原來大規(guī)模投資產業(yè)園、物聯(lián)網產業(yè)園從政績工程, 改造成智慧工程;在安防領域,應用大數(shù)據(jù)技術,提高應急處置能力和安全防范能力;在民生領域,應用大數(shù)據(jù)技術,提升服務能力和運作效率,以及個性化的服 務,比如醫(yī)療、衛(wèi)生、教育等部門;解決在金融,電信領域等中數(shù)據(jù)分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數(shù)型 數(shù)據(jù)的統(tǒng)計分析。一方面大數(shù)據(jù)的應用促進了政府職能變革,另一方面政府投入將形成示范效應,大大推動大數(shù)據(jù)的發(fā)展。
打造“智慧城市”
通過收集、處理龐大而復雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創(chuàng)新步伐,強化安全意識,轉變教育和學習模式。智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯(lián)和有效,隨著智慧城市的建設,社會將步入“大數(shù)據(jù)”時代。
未來,改變一切
未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶。 數(shù)據(jù)的再利用:由于在信息價值 鏈中的特殊位置,有些公司可能會收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長再次利用這些數(shù)據(jù)。但當它被一些發(fā)布個性化位置廣告服務和促銷活動的公司再 次利用時,則變得更有價值。