数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 拉链表是针对数据仓库设计中表存储数据的…

2020年12月15日 0条评论 5478点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 发展史 时代的变迁,生死的轮回,历史长…

2020年12月13日 0条评论 4619点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复: 资料,领取1024G资料。 分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结。 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到…

2020年12月12日 0条评论 3691点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 建模方法论 数仓的建模或者分层,其实都…

2020年12月8日 0条评论 4747点热度 0人点赞 ikeguang 阅读全文

前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直失败,下午重点注意到这个问题,才解决好。 Hive中的锁 在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态。 查看Hive的中死锁,可以使用show lock…

2020年12月7日 0条评论 2904点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 公司运营免不了让我们数据做一些临时取数,这些取数有时候是重复的,或者可以做成可配置的。需要开发成界面,供他们选择,自然想到Spri…

2020年11月5日 0条评论 8775点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 java连接hive进行一些统计分析,在工作中再正常不过了。这里介绍通过java直连和mybatis整合的方式。 1. java直…

2020年10月29日 0条评论 9578点热度 0人点赞 ikeguang 阅读全文

SpringBoot连接Hive异常,错误信息如下: Table not found 'DUAL' 通过 jdbc的方式,都是可以的,这里咋就不行了。 原因 dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段 解决办法 在hive里面default库创建一个dual表,随便插入一条数据,重新启动SpringBoot程序,就可以连上hive了。 CREATE TABLE `dual`( `dummy` string); 新建一…

2020年10月27日 0条评论 8180点热度 0人点赞 ikeguang 阅读全文

读多写少 由于业务场景的需要,我们hbase偏读多写少的,虽然hbase读的速度会慢于写的速度。搭建hbase集群,需要做一些基础的配置,尽量让hbase能有一个不错的表现,其中内存规划工作占了很大的比例。 机器64G内存 序号 步骤 原理 计算公式 计算值 修正值 A 规划RS总内存 在系统内存允许且不影响其他服务的情况下,越多越好。64G内存,预留8G即可 64G - 8G 56G 56G B 规划读缓存 CombinedBlockCache 整个RS内存分为三部分:读缓存、写缓存、其他。基本按照5 : 4 :…

2020年9月3日 2条评论 4934点热度 0人点赞 ikeguang 阅读全文

在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。 原因 yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false. 这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,在yar…

2020年7月8日 0条评论 8587点热度 0人点赞 ikeguang 阅读全文
145678