来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。
这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。
获取方法:关注公众号:Java大数据与数据仓库,回复"大数据",即可获得这份很全的文档。
视频...
柯广
22小时前 47℃ 0评论
0喜欢
在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续...
柯广
2周前 (04-01) 484℃ 0评论
6喜欢
关注公众号:Java大数据与数据仓库,回复 "资料",领取大数据资料,学习大数据技术。
窗口
在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过...
柯广
2周前 (04-01) 469℃ 0评论
0喜欢
TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。
1. 用到的知识点
Flink创建kafka数据源;
基于 EventTime 处理,如何指定 Watermark;
Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口;
St...
柯广
1个月前 (03-10) 1408℃ 0评论
3喜欢
explode 和 lateral view
为什么把这两个放一块呢,因为这两个经常放在一起用啊。
explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论...
柯广
1个月前 (03-04) 1635℃ 0评论
0喜欢
因为最近在使用Vue和SpringBoot结合开发,异步请求使用axios这个插件,本身在后端已经配置了跨域,前端指定了axios.defaults.baseURL,对于get请求是没有问题的,本来以为可以安心写页面了,结果发现对于后端配置的需要验证authc才能访问的post页...
柯广
2个月前 (02-07) 2820℃ 0评论
6喜欢
先来看一下2019年人口普查,也是第七次人口普查的男女性别比例数据,是目前最新的数据了。这里性别比,女性基数是100,例如:20 ~ 24这个区间,性别比是114.61,也就是说,114.6个男性对应100个女性。
可以看出,男女数量差异比较明显,但是在这个人口基数大国中,这个...
柯广
2个月前 (02-03) 2944℃ 0评论
1喜欢
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可...
柯广
2个月前 (01-27) 3223℃ 0评论
3喜欢
Driver
spark.driver.cores
driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。
spark.driver.memory
driver端分配的内存数,默认为1g,同上。
spark...
柯广
3个月前 (01-26) 3234℃ 0评论
0喜欢
不得不佩服 Spring Boot 的生态如此强大,今天我给大家推荐几款 Gitee 上优秀的后台开源版本的管理系统,小伙伴们再也不用从头到尾撸一个项目了,简直就是接私活,挣钱的利器啊。
SmartAdmin
我们开源一套漂亮的代码和一套整洁的代码规范,让大家在这浮躁的代码世界里...
柯广
3个月前 (01-19) 3606℃ 0评论
4喜欢
Spark内核概述
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。
一、Spark核心组件回顾
Driver
Spark驱动器节点,用于执行...
柯广
3个月前 (01-14) 3773℃ 0评论
3喜欢
抽样
抽样在Hive 中也是比较常用的一种手段,主要用在下面的几个场景中
一些机器学习的场景中,数仓作为数据的提供方提供样本数据
数据的计算结果异常或者是指标异常,这个时候如果我们往往需要确认数据源的数据是否本身就有异常
SQL的性能有问题的时候我们也会使用抽样的方法区查看数...
柯广
3个月前 (01-13) 3769℃ 0评论
1喜欢
Hive系列文章
Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive ...
柯广
3个月前 (01-10) 3950℃ 0评论
0喜欢
关注公众号:Java大数据与数据仓库,学习大数据技术。
一直想写一篇介绍设计模式的文章,让读者可以很快看完,而且一看就懂,看懂就会用,同时不会将各个模式搞混。自认为本文还是写得不错的😂😂😂,花了不少心思来写这文章和做图,力求让读者真的能看着简单同时有所收获。
设计模式是对大家...
柯广
3个月前 (01-10) 3890℃ 0评论
1喜欢
row_number
前面我们介绍窗口函数的时候说到了窗口函数的使用场景,我们也给它起了一个名字进行区分,通用窗口函数和特殊窗口函数,今天我们就来看一下排序相关的窗口函数,因为是窗口函数,并且我们说它是用来排序的,我们大概也能猜到它就是用来对窗口内的数据进行排序的
其实关于排序...
柯广
3个月前 (01-07) 4059℃ 0评论
1喜欢