等待下一个秋

  • Spark
  • Flink
  • Hive
  • 数据仓库
  • ClickHouse
  • 收徒弟
  • Java
    • Spring
    • Mybatis
    • SpringBoot
    • 面试题
  • Python
    • Python基础
    • 爬虫
    • Numpy
    • matplotlib
    • Flask
  • 技术杂谈
    • Linux知识
    • Docker
    • Git教程
    • Redis教程
    • mysql
    • 前端
    • R语言
    • 机器学习
  • 关于我
  • 其它
    • 副业挣钱
    • 资料下载
    • 资料文档
Hbase
大数据

Hbase构建二级索引的一些解决方案

1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。 二级索引的思想:简单理解就是,根据列族的列的值,查出rowkey,再按照rowkey就能很快从hbase查询出数据,我们需要构建出根据列族的列的值,很快查出rowkey的方案。 2 常见的二级索引方案 MapReduce方案; Coprocessor方案; elasticsearch+h…

2021年12月28日 0条评论 766点热度 0人点赞 等待下一个秋 阅读全文
大数据

Hbase面试题整理

HBase面试题整理(一) 1、 HBase的特点是什么? 1)大:一个表可以有数十亿行,上百万列; 2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 3)面向列:面向列(族)的存储和权限控制,列(族)独立检索; 4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏; 5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 6)数据类型单一:Hbase中的数据都是字符串,没有类型。 2、HBas…

2021年11月13日 0条评论 785点热度 0人点赞 等待下一个秋 阅读全文
大数据

Hbase统计表的行数的三种方法

有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, va…

2021年6月16日 0条评论 926点热度 0人点赞 等待下一个秋 阅读全文
大数据

hbase2.0.3 内存规划

读多写少 由于业务场景的需要,我们hbase偏读多写少的,虽然hbase读的速度会慢于写的速度。搭建hbase集群,需要做一些基础的配置,尽量让hbase能有一个不错的表现,其中内存规划工作占了很大的比例。 机器64G内存 序号 步骤 原理 计算公式 计算值 修正值 A 规划RS总内存 在系统内存允许且不影响其他服务的情况下,越多越好。64G内存,预留8G即可 64G - 8G 56G 56G B 规划读缓存 CombinedBlockCache 整个RS内存分为三部分:读缓存、写缓存、其他。基本按照5 : 4 :…

2020年9月3日 2条评论 5430点热度 0人点赞 等待下一个秋 阅读全文
大数据

HBase2.0.0-cdh6.0.1 hbase:namespace is not online 导致的 master无法初始化问题

版本信息 cdh-6.0.1 hadoop-3.0 hbase-2.0.0 问题 想在空闲时候重启一下hbase释放一下内存,顺便修改一下yarn的一些配置,结果停掉后,hbase起不来了,错误信息就是hbase:namespace表is not online,master一直初始化,具体错误信息: 15:41:59.313 [ProcExecTimeout] WARN org.apache.hadoop.hbase.master.assignment.AssignmentManager - STUCK Regio…

2020年8月18日 4条评论 8054点热度 0人点赞 等待下一个秋 阅读全文
大数据

hbase统计表的行数的3种方法

这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, value=jack 3 column=info:name, timestamp=1590221288866, value=alice 3 row(s) in 0.0700…

2020年5月25日 0条评论 7805点热度 0人点赞 等待下一个秋 阅读全文
Hive

hive关联hbase表

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 5930点热度 0人点赞 等待下一个秋 阅读全文

等待下一个秋

待我代码写成,便娶你为妻!专注于Hadoop/Spark/Flink/Hive/数据仓库等,关注公众号:大数据技术派,获取更多学习资料。

搜一搜
标签聚合
Java Python 挣钱 Redis Hive mysql R语言 书籍 算法 Flink 大数据 数据仓库
文章归档
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年9月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年5月
  • 2020年4月
  • 2020年1月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年1月
  • 2018年12月
  • 2017年5月

©2022 ikeguang.com. 保留所有权利。

鄂ICP备2020019097号-1

鄂公网安备 42032202000160号