大數據作為一種趨勢,正在席卷整個中國,尤其是重慶等地區(qū)。
現在,國家確定大數據戰(zhàn)略,在十三五期間“實施國家大數據戰(zhàn)略,推進數據資源開放共享”,所以在政府和國有大企業(yè)都在大數據方面發(fā)力,推進政府部門和企業(yè)內部大數據整合及創(chuàng)新應用的建設,根據這幾年大數據方面建設經驗,對大數據建設項目提出以下幾條建議。
第一步,建設大數據環(huán)境,主要包括基礎設施環(huán)境建設,平臺建設,基礎設施主要是硬件方面建設,包括主機、網絡、存儲的建設,大數據環(huán)境要求網絡帶寬一般至少千兆,數據量大,數據實時性要求高的,至少要求萬兆網絡,主機根據需要可以采用X86系列的主機,視計算能力和存儲要求配置主機臺數及CPU和存儲容量。平臺建設一般指大數據軟件環(huán)境,包括主機操作系統(tǒng)、大數據運行環(huán)境(目前一般是Hadoop體系),常用中間件、數據庫等,中間件如tomcat、weblogic、websphere等,數據庫需要支持當前主流數據庫,如Oracle、Mysql、Gbase等。
第二步,建設數據中心,采集各類用于數據分析、數據統(tǒng)計的數據,包括組織內部數據、組織外部相關數據,及互聯網抓取的數據(作為參考)。并根據數據特點應用場景不同,采取不同的存儲方式,如結構化數據,TB以下數據可以放在常用關系數據庫中,如Oracle數據庫,對于數據量巨大的數據可以存放MPP(分布式關系數據庫)或大數據環(huán)境的Hive、Hbase中,對于有靈活查詢需求的大數據,建議存放MPP數據庫中,對于靜態(tài)的,主要用于統(tǒng)計分析的數據,建議存放在Hive或Hbase中,采用Spark架構實現數據的統(tǒng)計分析;對于非結構化數據,建議存放在Hbase或Hdfs上,擴展性和穩(wěn)定性較好。
最后,基于數據中心,建設創(chuàng)新應用,以前由于數據分散在不同的系統(tǒng)中,不能通過數據碰撞產生新的應用,現在具備數據碰撞的條件了,一批新的創(chuàng)新應用自然就會出現了,如常見的查找套牌車的應用,通過獲取多地的車輛卡口數據,可以輕松判定同時出現在相距遙遠的車牌同時出現,有一輛即為套牌車。再如民政系統(tǒng),通過采集房產信息、車輛信息、銀行相關信息,利用這些信息來驗證低保用戶是否為真。房產信息聯網,可以為房產政策提供真實的數據,為國家決策提供基礎。、