Spark内核概述
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。
一、Spark核心组件回顾
Driver
Spark驱动器节点,用于执行...
3天前 112℃ 0评论
3喜欢
抽样
抽样在Hive 中也是比较常用的一种手段,主要用在下面的几个场景中
一些机器学习的场景中,数仓作为数据的提供方提供样本数据
数据的计算结果异常或者是指标异常,这个时候如果我们往往需要确认数据源的数据是否本身就有异常
SQL的性能有问题的时候我们也会使用抽样的方法区查看数...
4天前 153℃ 0评论
1喜欢
我来个简单粗暴的回答。
如果你经过自己的努力,成功圈了一波粉丝,跟粉丝互动不错,赚钱途径通常是有这些的。
赞赏,如果你文章写的好,读者会给你赞赏,通常赞赏的人很少,毕竟非亲非故的,除非你写的特别好,也可能一千个人,有一个人给你赞赏就算不错了!
文章后面的广告卡片,这个广告卡片读...
7天前 278℃ 0评论
0喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
7天前 309℃ 0评论
0喜欢
关注公众号:Java大数据与数据仓库,学习大数据技术。
一直想写一篇介绍设计模式的文章,让读者可以很快看完,而且一看就懂,看懂就会用,同时不会将各个模式搞混。自认为本文还是写得不错的😂😂😂,花了不少心思来写这文章和做图,力求让读者真的能看着简单同时有所收获。
设计模式是对大家...
7天前 291℃ 0评论
0喜欢
row_number
前面我们介绍窗口函数的时候说到了窗口函数的使用场景,我们也给它起了一个名字进行区分,通用窗口函数和特殊窗口函数,今天我们就来看一下排序相关的窗口函数,因为是窗口函数,并且我们说它是用来排序的,我们大概也能猜到它就是用来对窗口内的数据进行排序的
其实关于排序...
1周前 (01-07) 410℃ 0评论
1喜欢
Hive 中的四种排序
排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用。
数据准备
下面我们有一份温度数据,tab 分割
2008 32.0
2008 21....
2周前 (01-06) 441℃ 0评论
0喜欢
题外话:本来想跟同学去外滩跨年,感受刀子般的凛风带来的肉体上的刺激,可是一个同学说他还在穿秋天的衣服,没有衣服穿不敢出门,怕被冻死。shit,真扫兴,这傻*。所以下班点我坐在座位上,上了会网,突然产生了一个很有价值的想法,我激动的站了起来,结果发现办公室已经没人了,早都下班回家...
2周前 (12-31) 821℃ 0评论
5喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
3周前 (12-30) 751℃ 0评论
1喜欢
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。
数据湖初识
近两年,为什么都开始谈论起 Data Lake 这个”新名词”了?
先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注 Data Lake 的根本原因是用户需求发生了质变,过去的数据仓库模式以及...
3周前 (12-25) 958℃ 0评论
3喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
4周前 (12-23) 1063℃ 1评论
2喜欢
书中自有黄金屋,书中自有颜如玉。书是人类进步的阶梯。古今中外的先贤们已经给出了明确的答案,多读书对一个人的改变和产生的影响无疑是显著的。
1. 思想境界
早有人说过“纸上得来终觉浅,绝知此事要躬行”,光懂了书本上的知识,你只是知道,而非做到。就好像老师说考试很简单,就是这两套卷子...
4周前 (12-20) 1163℃ 0评论
1喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
4周前 (12-20) 1188℃ 0评论
0喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
4周前 (12-18) 1244℃ 0评论
0喜欢
Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。
这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。
1 LEAD...
1个月前 (12-17) 1278℃ 0评论
0喜欢