请阐述Hbase 的存储结构?
HBase是一个分布式、面向列的NoSQL数据库,其存储结构是为了支持大规模数据存储和高并发访问而设计的。HBase的存储结构可以分为逻辑存储结构和物理存储结构两个层面。
逻辑存储结构:
- Table(表):HBase中的表由行和列组成,但与传统关系型数据库不同,HBase的列是动态定义的,每行可以有不同的列。
-
Row(行):HBase表中的每行数据都由一个唯一的RowKey标识。RowKey是字节数组,按照字典序存储,因此设计RowKey时需要考虑数据的访问模式。
-
Column Family(列族):HBase的列被组织成列族,每个列族包含多个列。列族是表的模式定义的一部分,需要在创建表时指定。同一个列族的所有列具有相同的访问模式和存储属性。
-
Column(列):HBase中的列由列族和列限定符(Column Qualifier)共同确定。列限定符不需要预先定义,可以在写入数据时动态指定。
-
Cell(单元格):HBase中的每个数据项都是一个单元格,由{RowKey, Column Family, Column Qualifier, Timestamp}唯一确定。单元格中的数据是字节数组,没有固定的数据类型。
-
Timestamp(时间戳):HBase中的每个单元格都可以包含多个版本的数据,通过时间戳来区分。时间戳由系统自动生成,也可以由用户显式指定。
物理存储结构:
-
Region(区域):HBase表在物理上被分割成多个Region,每个Region负责存储表中的一部分数据。Region的大小可以根据配置和数据量动态调整。
-
HRegionServer(区域服务器):Region存储在HRegionServer上,一个HRegionServer可以管理多个Region。HRegionServer负责处理客户端的请求,并执行数据读写操作。
-
Store(存储):每个Region由一个或多个Store组成,每个Store对应表中的一个列族。Store包含MemStore和StoreFile两部分。
-
MemStore(内存存储):MemStore是写缓存,用于暂存新写入的数据。当MemStore达到一定大小时,会触发Flush操作,将数据持久化到StoreFile中。
-
StoreFile(存储文件):StoreFile是HBase中实际存储数据的物理文件,存储在HDFS上。StoreFile是不可变的,一旦创建就不能修改。
-
HFile(HBase文件):StoreFile的底层实现是HFile,HFile是HBase自定义的一种文件格式,用于存储和索引数据。
-
WAL(Write-Ahead Log,预写日志):为了保证数据的持久性和恢复能力,HBase在数据写入MemStore之前,会先将操作写入WAL。WAL是HBase的日志文件,用于在系统崩溃时恢复数据。
综上所述,HBase的存储结构通过逻辑上的表和物理上的Region、Store等组件相结合,实现了高效、可扩展的大规模数据存储和访问。