Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限。 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021-08-15 0条评论 64点热度 0人点赞 柯广 阅读全文

关注公众号:Java大数据与数据仓库,回复“资料”,领取资料,学习大数据技术。 背景 随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性,HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本,1TB的原始数据需要占用3TB的磁盘空间,存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据,却和热数据一样存储3个副本,给存储空间和网络带宽带来了很大的压力。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。 Hadoop …

2021-08-08 0条评论 77点热度 0人点赞 柯广 阅读全文

有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, va…

2021-06-16 0条评论 180点热度 0人点赞 柯广 阅读全文

数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一致.数据准实时同步的目的在于数据的双备份可用,比如某天A集群突然宣告不允许再使用了,此时可以将线上使用集群直接切向B的同步…

2021-06-09 0条评论 204点热度 0人点赞 柯广 阅读全文

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18 关于什么是pv,uv,可以参见这篇博客:https://blog.csdn.net/petermsh/article/details/78652246 1、项目流程 日志数据从…

2021-06-03 0条评论 223点热度 0人点赞 柯广 阅读全文

经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。 基本的,你得知道had…

2021-05-24 0条评论 313点热度 0人点赞 柯广 阅读全文

一套Hadoop入门视频教程。 资料详情 ├─01hadoop-大数据启蒙-初识HDFS.flv ├─02hadoop-HDFS理论基础读写流程.flv ├─03hadoop-HDFS集群搭建-伪分布式模式.mp4 ├─04hadoop-HDFS集群搭建-HA模式概念.mp4 ├─05hadoop-HDFS集群搭建-HA模式验证.mp4 ├─06hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS.mp4 ├─07hadoop-MapReduce原理精讲、轻松入门.mp4 ├─08hadoop-…

2021-05-12 0条评论 195点热度 1人点赞 柯广 阅读全文

一套Flink入门视频教程。 资料详情 |- 第1章 初识Flink - 文件夹 |- 第2章 快速上手开发第一个Flink应用程序 - 文件夹 |- 第3章 编程模型及核心概念 - 文件夹 |- 第4章 DataSet API编程 - 文件夹 |- 第5章 DataStream API编程 - 文件夹 |- 第6章 Flink Table API & SQL编程 - 文件夹 |- 第7章 Flink中的Time及Windows的使用 - 文件夹 |- 第8章 Flink Connectors - 文件夹 …

2021-05-12 0条评论 219点热度 0人点赞 柯广 阅读全文

一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。 一个状态…

2021-05-03 0条评论 194点热度 0人点赞 柯广 阅读全文

来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。 这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。 获取方法:关注公众号:Java大数据与数据仓库,回复"大数据",即可获得这份很全的文档。 视频,这个很大,百度网盘经常封禁这个,我建了个百度网盘群,可以加群,我分享到群共享里 获取方法:加百度网盘群:5575179552。 还有一些北方网、尚学堂、尚学堂的视频,也可以找我要,我的微信:ddxygq。 以上资源来源于网络,侵删。

2021-04-11 0条评论 890点热度 0人点赞 柯广 阅读全文

在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续等待了,直接出发。 这种机制跟这里要讲的watermark机制是一个意思。指的是,由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经…

2021-04-01 0条评论 1385点热度 0人点赞 柯广 阅读全文

关注公众号:Java大数据与数据仓库,回复 "资料",领取大数据资料,学习大数据技术。 窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。 Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批…

2021-04-01 0条评论 1297点热度 0人点赞 柯广 阅读全文

TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源; 基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; ProcessFunction 实现 TopN 功能; 2. 案例介绍 通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。 创建kafka生产者,发送测试数据到kafka; 消费kafka数据,使用滑动(sl…

2021-03-10 0条评论 2089点热度 0人点赞 柯广 阅读全文

explode 和 lateral view 为什么把这两个放一块呢,因为这两个经常放在一起用啊。 explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与later…

2021-03-04 0条评论 2671点热度 0人点赞 柯广 阅读全文

先来看一下2019年人口普查,也是第七次人口普查的男女性别比例数据,是目前最新的数据了。这里性别比,女性基数是100,例如:20 ~ 24这个区间,性别比是114.61,也就是说,114.6个男性对应100个女性。 可以看出,男女数量差异比较明显,但是在这个人口基数大国中,这个差异得以放大。那么,这个性别数量差异是怎么造成的呢?我们继续探究。 故事一 以前在农村重男轻女现象比较严重,我村里一户人家想要一个男孩,结果接连生了5胎,都是女孩。人生就是这样的倔强,也需要顽强,有时候你不坚持一下,你都不知道什么叫绝望。 故…

2021-02-03 0条评论 3624点热度 0人点赞 柯广 阅读全文