题外话:本来想跟同学去外滩跨年,感受刀子般的凛风带来的肉体上的刺激,可是一个同学说他还在穿秋天的衣服,没有衣服穿不敢出门,怕被冻死。shit,真扫兴,这傻*。所以下班点我坐在座位上,上了会网,突然产生了一个很有价值的想法,我激动的站了起来,结果发现办公室已经没人了,早都下班回家了,我就关了空调和灯,回家了。 本来是不打算做年终总结的,因为一年过的很快,就会有一种经常做年终总结的感觉。看到大佬们都在做总结,我也东施效颦,毕竟生活需要仪式感。预计花费30分钟写完本文。 2020年终于过去了,时间过得很快,一切都在变,不…

2020年12月31日 0条评论 5455点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 本文大纲 UDF 简介 Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基…

2020年12月30日 0条评论 5640点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复资料,领取1024G资料。 刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂…

2020年12月25日 0条评论 5598点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 动态分区调整 动态分区属性:设置为true表示开启动态分区功能(默认为false)hive.exec.dynamic.partit…

2020年12月23日 1条评论 6347点热度 1人点赞 ikeguang 阅读全文

书中自有黄金屋,书中自有颜如玉。书是人类进步的阶梯。古今中外的先贤们已经给出了明确的答案,多读书对一个人的改变和产生的影响无疑是显著的。 1. 思想境界 早有人说过“纸上得来终觉浅,绝知此事要躬行”,光懂了书本上的知识,你只是知道,而非做到。就好像老师说考试很简单,就是这两套卷子里的题。你会想,嗯,我知道了很简单嘛就这两套卷子。但你却没有去做,你的思想只停留在表面的知道。这也就如有人提问,我看了1000本书,为什么感觉没有什么用? 2. 精神面貌 如你所见,读书见事,具有美颜塑形的良好功效。博闻强识让人变得自信,摸…

2020年12月20日 0条评论 5721点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 除了使用础的数据类型string等,Hive中的列支持使用struct, map, array集合数据类型。 数据类型 描述 语法…

2020年12月20日 0条评论 5742点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 先解释一下几个名词: metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书…

2020年12月18日 0条评论 5657点热度 0人点赞 ikeguang 阅读全文

Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。 1 LEAD 与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) 场景 用户Peter在浏…

2020年12月17日 0条评论 4662点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复: 资料,领取1024G资料。 拉链表是针对数据仓库设计中表存储数据的…

2020年12月15日 0条评论 5307点热度 0人点赞 ikeguang 阅读全文

在开设传统培训班时,正常的流程是先预订酒店,提前担负几万、十几万的会务开支。之后再在开课之前,招募到足够多的学员,以此保证收支平衡。而我筹备的这次培训完全不一样,因为我不必提前承担不可预知的会务成本。我通过发展种子学员的方式,用最轻松、最简单的方法达到了我预期的效果。 组织一场线下的培训班。在学员招募的过程中,我也是采取了优先发展种子学员的思路。最终,我单枪匹马一个人通过这个培训班,收到了33万的现金。那么,我是怎么组织起这个培训班的呢? 在培训班宣传文案当中,我提出了这样一个合作主张:前10名种子学员,将能够享受…

2020年12月13日 1条评论 6188点热度 0人点赞 ikeguang 阅读全文