久久精品国产99国产精品,国产成人天天5g影院,国产精品1024永久观看,国产午夜视频在线观看网站,国产91久久久久久久免费,99热国产这里只有精品9九,精品国产理论在线观看不卡,女刘玥精品视频在线观看,精品国产电影在线观看

大數(shù)據(jù)資訊

當(dāng)前位置：首頁 > 大數(shù)據(jù)資訊

產(chǎn)品服務(wù)

如何使用HBase？大數(shù)據(jù)存儲的兩個實戰(zhàn)場景

來源：重慶數(shù)鋒科技有限公司發(fā)布時間：2018-10-22 11:38:26

HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)，適用于結(jié)構(gòu)化的存儲，底層依賴于Hadoop的HDFS，利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。因此HBase被廣泛使用在大數(shù)據(jù)存儲的解決方案中。

為何使用HBase

HBase的優(yōu)點：

- 列可以動態(tài)增加，并且列為空就不存儲數(shù)據(jù)，節(jié)省存儲空間。

- Hbase自動切分?jǐn)?shù)據(jù)，使得數(shù)據(jù)存儲自動具有水平scalability。

- Hbase可以提供高并發(fā)讀寫操作的支持。

HBase的缺點：

- 不能支持條件查詢，只支持按照Row key來查詢。

- HBase并不適合傳統(tǒng)的事物處理程序或關(guān)聯(lián)分析，不支持復(fù)雜查詢，一定程度上限制了它的使用，但是用它做數(shù)據(jù)存儲的優(yōu)勢也同樣非常明顯。

因為HBase存儲的是松散的數(shù)據(jù)，所以如果你的應(yīng)用程序中，數(shù)據(jù)表每一行的結(jié)構(gòu)是有差別的，那么可以考慮使用HBase。因為HBase的列可以動態(tài)增加，并且列為空就不存儲數(shù)據(jù)，所以如果你需要經(jīng)常追加字段，且大部分字段是NULL值的，那可以考慮HBase。因為HBase可以根據(jù)Rowkey提供高效的查詢，所以如果你的數(shù)據(jù)(包括元數(shù)據(jù)、消息、二進制數(shù)據(jù)等)都有著同一個主鍵，或者你需要通過鍵來訪問和修改數(shù)據(jù)，使用HBase是一個很好地選擇。

如何使用HBase

場景一：賣家操作日志

賣家操作日志，顧名思義是用來記錄商家操作的系統(tǒng)，從而可以保證商家可以精確查詢自己的各種操作。京東有幾十萬的商家時時刻刻的進行著各種操作，因此賣家操作日志的特點是：數(shù)據(jù)量大、實時性強、增多查少。

圖1

圖2

我們在做賣家操作日志初期，將所有的操作日志存放在ES中，操作日志的數(shù)據(jù)量是非常大的，但尷尬的是我們當(dāng)時所能申請到的ES資源有限。當(dāng)把大量的數(shù)據(jù)存儲到有限的ES集群中時便導(dǎo)致了性能的下降。在這種情況下，我們選擇了只在ES集群中存儲最近三個月的數(shù)據(jù)，對其提供靈活的查詢，而長期的數(shù)據(jù)存儲使用HBase來進行。這樣的話我們便可以實現(xiàn)對近期操作靈活展現(xiàn)，對長期數(shù)據(jù)也有精確備份。

場景二：京麥消息日志的存儲

京麥消息日志的存儲是屬于京麥筋斗云系統(tǒng)(用于打造京麥消息生態(tài)系統(tǒng)閉環(huán))不可或缺的一部分。其中包含消息的全鏈路追蹤以及消息的統(tǒng)計分析。京麥消息每天都會有幾千萬的消息量，如何對消息進行追蹤和統(tǒng)計便成為了一個至關(guān)重要的問題。消息追蹤要求實時性、多維度精確查詢，因此我們選擇將最近一周的消息日志存儲在ES。統(tǒng)計分析要求我們有足夠多的數(shù)據(jù)，因此我們在將數(shù)據(jù)存儲在ES中的同時也存儲在HBase中一份。最終再定期將HBase中的數(shù)據(jù)導(dǎo)入到京東的數(shù)據(jù)集市中，這樣我們便可以很方便的對京麥消息進行統(tǒng)計分析。

HBase的數(shù)據(jù)結(jié)構(gòu)

要使用HBase我們首先要了解HBase的數(shù)據(jù)結(jié)構(gòu)：

HBase會存儲系列的行記錄，行記錄有三個基本類型的定義：Row Key、Time Stamp、Column Family。

Row Key

與NoSQL數(shù)據(jù)庫一樣，Row Key是用來檢索記錄的主鍵。訪問HBase table中的行，只有三種方式：

通過單個Row Key訪問。

通過Row Key的range全表掃描。

Row Key可以是任意字符串(最大長度是64KB，實際應(yīng)用中長度一般為 10 ~ 100bytes)，在HBase內(nèi)部，Row Key保存為字節(jié)數(shù)組。

在存儲時，數(shù)據(jù)按照Row Key的字典序(byte order)排序存儲。設(shè)計Key時，要充分排序存儲這個特性，將經(jīng)常一起讀取的行存儲到一起(位置相關(guān)性)。

Column Family

HBase表中每個列都必須屬于某個列族，列族必須作為表模式定義的一部分預(yù)先給出(有點像關(guān)系型數(shù)據(jù)庫中的列名，定義完一般情況下就不會再去修改);

列名以列族作為前綴，每個列族都可以有多個列成員。新的列族成員(也就是列)可以隨后按需，動態(tài)加入。

Hbase把同一列族里面的數(shù)據(jù)存儲在同一目錄下，由幾個文件保存。

Time Stamp

在HBase每個cell存儲單元對同一份數(shù)據(jù)有多個版本，根據(jù)唯一的時間戳來區(qū)分每個版本之間的差異，不同版本的數(shù)據(jù)按照時間倒序排序，最新的數(shù)據(jù)版本排在最前面。

簡述HBase的架構(gòu)原理

1. HBase的模塊

Master

HBase Master用于協(xié)調(diào)多個Region Server，偵測各個Region Server之間的狀態(tài)，并平衡Region Server之間的負(fù)載。HBase Master還有一個職責(zé)就是負(fù)責(zé)分配Region給Region Server。HBase允許多個Master 節(jié)點共存，但是這需要Zookeeper的幫助。不過當(dāng)多個Master節(jié)點共存時，只有一個Master是提供服務(wù)的，其他的Master節(jié)點處于待命的狀態(tài)。當(dāng)正在工作的Master節(jié)點宕機時，其他的Master則會接管 HBase 的集群。

Region Server

對于一個Region Server而言，其包括了多個Region。Region Server的作用只是管理表格，以及實現(xiàn)讀寫操作。Client 直接連接Region Server，并通信獲取HBase中的數(shù)據(jù)。對于Region而言，則是真實存放HBase數(shù)據(jù)的地方，也就說Region是HBase可用性和分布式的基本單位。如果當(dāng)一個表格很大，并由多個CF組成時，那么表的數(shù)據(jù)將存放在多個Region之間，并且在每個Region中會關(guān)聯(lián)多個存儲的單元(Store)。

Zookeeper

對于HBase而言，Zookeeper的作用是至關(guān)重要的。首先Zookeeper是作為HBase Master的HA解決方案。也就是說，是Zookeeper保證了至少有一個HBase Master處于運行狀態(tài)。并且Zookeeper負(fù)責(zé)Region和Region Server的注冊。其實Zookeeper發(fā)展到目前為止，已經(jīng)成為了分布式大數(shù)據(jù)框架中容錯性的標(biāo)準(zhǔn)框架。不光是HBase，幾乎所有的分布式大數(shù)據(jù)相關(guān)的開源框架，都依賴于Zookeeper實現(xiàn)HA。

2. HBase的原理

首先我們需要知道HBase的集群是通過Zookeeper來進行機器之前的協(xié)調(diào)，也就是說HBase Master與Region Server之間的關(guān)系是依賴Zookeeper來維護。當(dāng)一個Client需要訪問HBase集群時，Client需要先和Zookeeper來通信，然后才會找到對應(yīng)的Region Server。每一個 Region Server管理著很多個Region。對于HBase來說，Region是HBase并行化的基本單元。因此，數(shù)據(jù)也都存儲在Region中。

這里我們需要特別注意，每一個Region都只存儲一個Column Family的數(shù)據(jù)，并且是該CF中的一段(按Row 的區(qū)間分成多個Region)。Region所能存儲的數(shù)據(jù)大小是有上限的，當(dāng)達到該上限時(Threshold)，Region會進行分裂，數(shù)據(jù)也會分裂到多個Region中，這樣便可以提高數(shù)據(jù)的并行化，以及提高數(shù)據(jù)的容量。

每個Region包含著多個Store對象。每個Store包含一個MemStore，和一個或多個HFile。MemStore便是數(shù)據(jù)在內(nèi)存中的實體，并且一般都是有序的。當(dāng)數(shù)據(jù)向Region寫入的時候，會先寫入MemStore。當(dāng)MemStore中的數(shù)據(jù)需要向底層文件系統(tǒng)傾倒(Dump)時(例如MemStore中的數(shù)據(jù)體積到達MemStore配置的最大值)，Store便會創(chuàng)建StoreFile，而StoreFile就是對HFile一層封裝。所以MemStore中的數(shù)據(jù)會最終寫入到HFile中，也就是磁盤IO。由于HBase底層依靠HDFS，因此HFile都存儲在HDFS之中。這便是整個HBase工作的原理簡述。

使用HBase時應(yīng)注意的問題

基于Hbase的系統(tǒng)設(shè)計與開發(fā)中，需要考慮的因素不同于關(guān)系型數(shù)據(jù)庫，Hbase模式本身很簡單，但賦予你更多調(diào)整的空間，有一些模式寫性能很好，但讀取數(shù)據(jù)時表現(xiàn)不好，或者正好相反，類似傳統(tǒng)數(shù)據(jù)庫基于范式的OR建模，在實際項目中考慮Hbase設(shè)計模式是，我們需要從以下幾方面內(nèi)容著手：

? 這個表應(yīng)該有多少個列簇

? 列簇使用什么數(shù)據(jù)

? 每個列簇應(yīng)有多少個列

? 列名應(yīng)該是什么，盡管列名不必在建表時定義，但是讀寫數(shù)據(jù)時是需要的

? 單元應(yīng)該存放什么數(shù)據(jù)

? 每個單元存儲什么時間版本

? 行健結(jié)構(gòu)是什么，應(yīng)該包括什么信息

總結(jié)：

現(xiàn)如今各種數(shù)據(jù)存儲方案層出不窮，本文僅僅是結(jié)合兩個實戰(zhàn)場景就基于HBase的大數(shù)據(jù)存儲做了簡單的分析，并對HBase的原理做了簡單的闡述。如何使用好HBase，甚至于如何選擇一個最優(yōu)的數(shù)據(jù)存儲方案，還需要我們根據(jù)場景需要具體分析和設(shè)計

上一篇：大數(shù)據(jù)和人工智能的未來可以歸結(jié)為一件事下一篇：大數(shù)據(jù)和人工智能的未來可以歸納為一件事

解決方案

大數(shù)據(jù)服務(wù)項目大數(shù)據(jù)資訊大數(shù)據(jù)解決方案網(wǎng)絡(luò)輿情關(guān)于我們

重慶數(shù)鋒科技有限公司致力于在大數(shù)據(jù)時代的環(huán)境下與政府部門及各種垂直行業(yè)的企業(yè)用戶提供高效、整體、專業(yè)的IT信息化解決方案。其產(chǎn)品包括互聯(lián)網(wǎng)+全媒體輿情監(jiān)、大數(shù)據(jù)+醫(yī)療/衛(wèi)生等服務(wù)類產(chǎn)品、并拓展至整體智慧平臺包括智慧城市、智慧旅游、智慧交通、智慧農(nóng)業(yè)、智慧校園、智慧社區(qū)等綜合解決方案。并具有一定的軟件系統(tǒng)平臺研發(fā)實力，可獨立研發(fā)PC/客戶端等多模塊、多方位、多形態(tài)、多終端載體的系統(tǒng)平臺。

重慶數(shù)鋒科技有限公司版權(quán)所有 © 2010-2018 www.paperspread.com All Rights Reserved.

公司地址：重慶市巴南區(qū)魚洞街道金竹村鷗鵬大道壹號一期2幢

聯(lián)系電話：023-62404508

網(wǎng)站備案號：渝ICP備17008826號

x