近年來,隨著大數據成為互聯(lián)網信息技術行業(yè)的流行詞匯,教育逐漸被認為是大數據可以大有作為的一個重要應用領域,有人大膽地預測大數據將給教育帶來革命性的變化。 大數據技術允許中小學和大學分析從學生的學習行為、考試分數到職業(yè)規(guī)劃等所有重要的信息。許多這樣的數據已經被諸如美國國家教育統(tǒng)計中心之類的政府機構儲存起來用于統(tǒng)計和分析。
在確定投資大數據解決方案之前,評估可用于分析的數據;通過分析這些數據而獲得的洞察;以及可用于定義、設計、創(chuàng)建和部署大數據平臺的資源。詢問正確的問題是一個不錯的起點。使用本文中的問題將指導您完成調查。答案將揭示該數據和您嘗試解決的問題的更多特征。
盡管組織一般情況對需要分析的數據類型有一些模糊的理解,但具體的細節(jié)很可能并不清晰。畢竟,數據可能具有之前未發(fā)現的模式的關鍵,一旦識別了一種模式,對額外分析的需求就會變得很明顯。要幫助揭示這些未知的未知信息,首先需要實現一些基本用例,在此過程中,可以收集以前不可用的數據。構建數據存儲庫并收集更多數據后,數據科學家就能夠更好地確定關鍵的數據,更好地構建將生成更多洞察的預測和統(tǒng)計模型。
組織可能也已知道它有哪些信息是不知道的。要解決這些已知的未知,組織首先必須與數據科學家合作,識別外部或第三方數據源,實現一些依賴于此外部數據的用例。
本文首先嘗試回答大多數 CIO 在實施大數據舉措之前通常會提出的問題,然后,本文將重點介紹一種將幫助評估大數據解決方案對組織的可行性的基于維度的方法。
我的大數據問題是否需要大數據解決方案?
大數據,曾幾何時似乎很少出現
組織多半會選擇以增量方式實現大數據解決方案。不是每個分析和報告需求都需要大數據解決方案。如果對于對大型數據集或來自多個數據源的臨時報告執(zhí)行并行處理的項目,那么可能沒有必要使用大數據解決方案。
隨著大數據技術的到來,組織會問自己:“大數據是否是我的業(yè)務問題的正確解決方案,或者它是否為我提供了業(yè)務機會?”大數據中是否隱藏著業(yè)務機會?以下是我從 CIO 那里聽到的一些典型問題:
如果我使用大數據技術,可能會獲得何種洞察和 業(yè)務價值?
它是否可以擴充我 現有的數據倉庫?
我如何評估 擴展當前環(huán)境 或采用新解決方案的成本?
對我現有的 IT 治理 有何影響?
我能否 以增量方式實現 大數據解決方案?
我需要掌握哪些 具體的技能 來理解和分析構建和維護大數據解決方案的需求?
我的 現有企業(yè)數據 能否用于提供業(yè)務洞察?
來自各種來源的 數據的復雜性 在不斷增長。大數據解決方案對我有幫助嗎?
維度可幫助評估大數據解決方案的可行性
為了回答這些問題,本文提出了一種依據下圖中所示的維度來評估大數據解決方案的可行性的結構化方法。
如何選擇大數據解決方案?
來自可通過分析數據獲得的洞察的業(yè)務價值
針對新數據來源和數據使用方式的治理考慮因素
擁有相關技能和贊助商的承諾的人員
捕獲的數據量
各種各樣的數據源、數據類型和數據格式
生成數據的速度,需要對它執(zhí)行操作的速度,或者它更改的速度
數據的真實性,或者數據的不確定性和可信賴性
對于每個維度,我們都給出了一些關鍵問題。依據業(yè)務上下文,為每個維度分配一個權重和優(yōu)先級。評估會因業(yè)務案例和組織的不同而有所不同。您可以考慮在與相關的業(yè)務和 IT 利益相關者召開的一系列研討會中探討這些問題。
業(yè)務價值:可通過大數據技術獲取何種洞察?
許多組織想知道,他們在尋找的業(yè)務洞察能否通過大數據解決方案解決。沒有權威的指南能夠用來定義可從大數據獲取的洞察。具體場景需要由組織識別,而且這些場景在不斷演變。在確定和識別在實現后會給企業(yè)帶來重大價值的業(yè)務用例和場景的過程中,數據科學家起著至關重要的作用。
數據科學家必須能夠理解關鍵績效指標,對數據應用統(tǒng)計算法和復雜算法來獲得一個用例列表。用例因行業(yè)和業(yè)務不同而有所不同。研究市場競爭對手的行動、發(fā)揮作用的市場力量,以及客戶在尋找什么,會很有幫助。下表給出了來自各行各業(yè)的用例示例。
表 1. 來自各行各業(yè)的示例用例
如何選擇大數據解決方案?
潛在的客戶正在社交網絡和評論站點上生成大量新數據。在企業(yè)內,隨著客戶切換到在線渠道來執(zhí)行業(yè)務和與公司交互,交易數據和 Web 日志與日俱增。
確定數據的優(yōu)先級
首先為企業(yè)內存在的數據創(chuàng)建一個清單。識別內部系統(tǒng)和應用程序中存在的數據以及從第三方傳入的數據。如果業(yè)務問題可使用現有數據解決,那么有可能不需要使用來自外部來源的數據。
請考慮構建一個大數據解決方案的成本,并權衡它與帶給業(yè)務部門的新洞察的價值。
在有關現有客戶的歸檔數據的上下文中分析此新數據時,業(yè)務人員將獲得對新業(yè)務機會的洞察。
主要滿足以下條件,大數據可提供可行的解決方案:
從數據中開發(fā)的洞察所生成的價值,值得在大數據解決方案中投入的資本成本
面向客戶的場景可證明來自洞察的潛在價值
評估通過大數據解決方案獲取的業(yè)務價值時,請考慮您當前的環(huán)境是否可擴展并權衡此投資的成本。
我當前的環(huán)境能否擴展?
詢問以下問題,確定您能否擴充現有的數據倉庫平臺?
當前的數據集是否非常大,是否達到了 TB 或 PB 數量級?
現有的倉庫環(huán)境是否包含生成或獲取的所有 數據的存儲庫?
是否有大量冷數據或人們很少接觸的數據未分析,可以通過分析這些數據獲得業(yè)務洞察?
您是否需要丟棄數據,因為無法存儲或處理它?
您是否希望能夠在復雜且大量的數據上執(zhí)行數據探索?
您是否希望能夠對非操作數據執(zhí)行分析?
您是否有興趣使用數據執(zhí)行傳統(tǒng)和新類型的分析?
您是否試圖延遲對現有數據倉庫的升級?
您是否在尋求途徑降低執(zhí)行分析的總體成本?
如果任何這些問題的答案是 “是”,那么您就可以探索擴充現有數據倉庫環(huán)境的方式。
擴展我當前的環(huán)境的成本是多少?
擴展現有數據倉庫平臺或 IT 環(huán)境與實現大數據解決方案的成本和可行性取決于:
現有工具和技術
現有系統(tǒng)的可伸縮性
現有環(huán)境的處理能力
現有平臺的存儲能力
執(zhí)行的治理和策略
現有 IT 應用程序的異構性
組織中存在的技術和業(yè)務技能。
它還依賴于將從新數據來源收集的數據量、業(yè)務用例的復雜性、處理的分析復雜性,以及獲取數據和擁有恰當技能集的人員的成本。現有的資源池能否開發(fā)新的大數據技能,或者是否可從外部雇傭擁有稀缺技能的人員?
請注意,大數據舉措會對其他正在實施的項目產生影響。從新的來源獲取數據具有很高的成本。您首先應當識別系統(tǒng)和應用程序內部存在的數據,以及目前收到的第三方數據,這一點很重要。如果業(yè)務問題可以使用現有數據解決,那么有可能不需要使用來自外部來源的數據。
在生成新工具和應用程序之前,請評估組織的應用程序組合。例如,一個普通的 Hadoop 平臺可能無法滿足您的需求,您可能必須購買專業(yè)的工具?;蛘呦鄬Χ裕琀adoop 的商業(yè)版本對當前用例而言可能很昂貴,但可能需要用作長期投資來支持一個戰(zhàn)略性的大數據平臺??紤]大數據工具和技術需要的基礎架構、硬件、軟件和維護的成本。
對數據的治理和控制:對現有的 IT 治理有何影響?
在決定是否實現一個大數據平臺時,組織可能會查看新數據源和新的數據元素類型,而這些信息當前的所有權尚未明確定義。一些行業(yè)制度會約束組織獲取和使用的數據。例如,在醫(yī)療行業(yè),通過訪問患者數據來從中獲取洞察是否合法?類似的規(guī)則約束著所有行業(yè)。除了 IT 治理問題之外,組織的業(yè)務流程可能也需要重新定義和修改,讓組織能夠獲取、存儲和訪問外部數據。
請在您的情況的上下文中考慮以下治理相關問題:
安全性和隱私— 為了與當地法規(guī)一致,解決方案可以訪問哪些數據?可以存儲哪些數據?哪些數據應在移動過程中加密?靜止數據呢?誰可以查看原始數據和洞察?
數據的標準化— 是否有標準約束數據?數據是否具有專用的格式?是否有部分數據為非標準格式?
數據可用的時段— 數據在一個允許及時采取操作的時段是否可用?
數據的所有權— 誰擁有該數據?解決方案是否擁有適當的訪問權和權限來使用數據?
允許的用法:允許如何使用該數據?
我能否增量地實現大數據解決方案?
大數據解決方案可以采用增量方式實現。明確地定義業(yè)務問題的范圍,并以可度量的方式設置預期的業(yè)務收入提升,這樣做會很有幫助。
對于基礎業(yè)務案例,請仔細列出問題的范圍和解決方案帶來的預期收益。如果該范圍太小,業(yè)務收益將無法實現,如果范圍太大,獲得資金和在恰當的期限內完成項目就會很有挑戰(zhàn)性。在項目的第一次迭代中定義核心功能,以便能夠輕松地贏得利益相關者的信任。
人員:是否已有恰當的技能并調整了合適的人員?
需要特定的技能來理解和分析需求,并維護大數據解決方案。這些技能包括行業(yè)知識、領域專長,以及有關大數據工具和技術的技術知識。擁有建模、統(tǒng)計、分析和數學方面的專業(yè)經驗的數據科學家,是任何大數據舉措成功的關鍵。
在實施一個新的大數據項目之前,確保已安排了合適的人員:
您是否獲得利益相關者和其他愿意投資該項目的業(yè)務贊助者的支持?
是否擁有熟悉該領域、能分析大量數據、而且能識別從數據生成有意義且有用的洞察的途徑的數據科學家?
是否擁有可用于獲取洞察的現有數據?
所有組織都擁有大量未用于獲取業(yè)務洞察的數據。這些數據包括日志文件、錯誤文件和來自應用程序的操作數據。不要忽略此數據,它是寶貴信息的潛在來源。
數據復雜性是否在增長?
查找數據復雜性增長的線索,尤其是在數據量、種類、速度和真實性方面。
數據量是否已增長?
如果滿足以下條件,您可能希望考慮大數據解決方案:
數據大小達到 PB 和 EB 級,而且在不久的將來,它們可能增長到 ZB 級別。
這一數據量給使用傳統(tǒng)方法(比如關系數據庫引擎)存儲、搜索、共享、分析和可視化數據帶來的技術和經濟挑戰(zhàn)。
數據處理目前可使用可用硬件上的大規(guī)模并行處理能力。
數據種類是否已增多?
如果滿足以下條件,各種各樣的數據可能都需要大數據解決方案:
數據內容和結構無法預期或預測。
數據格式各不相同,包括結構化、半結構化和非結構化數據。
用戶和機器能夠以任何格式生成數據,例如:Microsoft? Word 文件、Microsoft Excel? 電子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒體、Web 和軟件日志、電子郵件、來自相機的照片和視頻、信息感知的移動設備、空中感知技術、基因組和醫(yī)療記錄。
以前沒有為了獲得洞察而被挖掘的數據來源不斷地在產生新的數據類型。
領域實體在不同的上下文中具有不同的含義。
數據的速度是否已增長或改變?
考慮您的數據是否:
在快速更改,必須立即響應
擁有過多的傳統(tǒng)技術和方法,它們不再足以實時處理傳入的數據
您的數據是否值得信賴?
如果滿足以下條件,那么請考慮使用大數據解決方案:
數據的真實性或準確性未知。
數據包含模糊不清的信息。
不清楚數據是否完整。
如果數據的量、種類、速度或真實性具有合理的復雜性,那么有可能會適合地采用大數據解決方案。對于更復雜的數據,需要評估與實現大數據解決方案關聯(lián)的任何風險。對于不太復雜的數據,則應該評估傳統(tǒng)的解決方案。
是否所有大數據都存在大數據問題?
不是所有大數據情形都需要大數據解決方案。請在市場中尋找線索。競爭對手在做什么?哪些市場力量在發(fā)揮作用?客戶想要什么?
使用本文中的問題,幫助確定大數據解決方案是否適合于您的業(yè)務情形和您需要的業(yè)務洞察。如果認為是時候實施大數據項目了,請閱讀下一篇文章,其中會介紹如何定義一個邏輯架構,而且將會確定您的大數據解決方案需要的關鍵組件。
結束語
數據(data),一般而言是指通過科學實驗、檢驗、統(tǒng)計等方式所獲得的,用于科學研究、技術設計、查證、決策等目的的數值。通過全面、準確、系統(tǒng)地測量、收集、記錄、分類、存儲這些數據,再經過嚴格地統(tǒng)計、分析、檢驗這些數據,就能得出一些很有說服力的結論。
大規(guī)模、長期地測量、記錄、存儲、統(tǒng)計、分析這些數據,所獲得的海量數據就是大數據(big data)。在制作大數據時,需要嚴格的方案設計、變量控制和統(tǒng)計檢驗等,不然所獲得的大數據就是不全面、不準確、無價值或價值不大的。