HBase面试题整理(一) 1、 HBase的特点是什么? 1)大:一个表可以有数十亿行,上百万列; 2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 3)面向列:面向列(族)的存储和权限控制,列(族)独立检索; 4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏; 5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 6)数据类型单一:Hbase中的数据都是字符串,没有类型。 2、HBas…

2021年11月13日 0条评论 44点热度 0人点赞 ikeguang 阅读全文

有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, va…

2021年6月16日 0条评论 274点热度 0人点赞 ikeguang 阅读全文

读多写少 由于业务场景的需要,我们hbase偏读多写少的,虽然hbase读的速度会慢于写的速度。搭建hbase集群,需要做一些基础的配置,尽量让hbase能有一个不错的表现,其中内存规划工作占了很大的比例。 机器64G内存 序号 步骤 原理 计算公式 计算值 修正值 A 规划RS总内存 在系统内存允许且不影响其他服务的情况下,越多越好。64G内存,预留8G即可 64G - 8G 56G 56G B 规划读缓存 CombinedBlockCache 整个RS内存分为三部分:读缓存、写缓存、其他。基本按照5 : 4 :…

2020年9月3日 2条评论 4611点热度 0人点赞 ikeguang 阅读全文

版本信息 cdh-6.0.1 hadoop-3.0 hbase-2.0.0 问题 想在空闲时候重启一下hbase释放一下内存,顺便修改一下yarn的一些配置,结果停掉后,hbase起不来了,错误信息就是hbase:namespace表is not online,master一直初始化,具体错误信息: 15:41:59.313 [ProcExecTimeout] WARN org.apache.hadoop.hbase.master.assignment.AssignmentManager - STUCK Regio…

2020年8月18日 4条评论 6173点热度 0人点赞 ikeguang 阅读全文

这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, value=jack 3 column=info:name, timestamp=1590221288866, value=alice 3 row(s) in 0.0700…

2020年5月25日 0条评论 7267点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 4412点热度 0人点赞 ikeguang 阅读全文