在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续等待了,直接出发。 这种机制跟这里要讲的watermark机制是一个意思。指的是,由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经…

2021年4月1日 0条评论 1552点热度 0人点赞 ikeguang 阅读全文

建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到国家的省市区的划分,无一例外的都是为了更好的组织管理 访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:改善数据统计口径的不一致性,减少数据计算…

2020年12月8日 0条评论 3571点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 公司运营免不了让我们数据做一些临时取数,这些取数有时候是重复的,或者可以做成可配置的。需要开发成界面,供他们选择,自然想到Spri…

2020年11月5日 0条评论 7978点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 java连接hive进行一些统计分析,在工作中再正常不过了。这里介绍通过java直连和mybatis整合的方式。 1. java直…

2020年10月29日 0条评论 8459点热度 0人点赞 ikeguang 阅读全文

SpringBoot连接Hive异常,错误信息如下: Table not found 'DUAL' 通过 jdbc的方式,都是可以的,这里咋就不行了。 原因 dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段 解决办法 在hive里面default库创建一个dual表,随便插入一条数据,重新启动SpringBoot程序,就可以连上hive了。 CREATE TABLE `dual`( `dummy` string); 新建一…

2020年10月27日 0条评论 7855点热度 0人点赞 ikeguang 阅读全文

在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。 原因 yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false. 这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,在yar…

2020年7月8日 0条评论 8104点热度 0人点赞 ikeguang 阅读全文

这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, value=jack 3 column=info:name, timestamp=1590221288866, value=alice 3 row(s) in 0.0700…

2020年5月25日 0条评论 7267点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 4412点热度 0人点赞 ikeguang 阅读全文

hive知识点 工作中hive常用知识点。 Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 创建hive表 # 新建个数据库test create database test; create external table if not e…

2020年4月14日 0条评论 3821点热度 0人点赞 ikeguang 阅读全文