数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一致.数据准实时同步的目的在于数据的双备份可用,比如某天A集群突然宣告不允许再使用了,此时可以将线上使用集群直接切向B的同步…

2021-06-09 0条评论 25点热度 0人点赞 柯广 阅读全文

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18 关于什么是pv,uv,可以参见这篇博客:https://blog.csdn.net/petermsh/article/details/78652246 1、项目流程 日志数据从…

2021-06-03 0条评论 48点热度 0人点赞 柯广 阅读全文

经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。 基本的,你得知道had…

2021-05-24 0条评论 62点热度 0人点赞 柯广 阅读全文

一套Hadoop入门视频教程。 资料详情 ├─01hadoop-大数据启蒙-初识HDFS.flv ├─02hadoop-HDFS理论基础读写流程.flv ├─03hadoop-HDFS集群搭建-伪分布式模式.mp4 ├─04hadoop-HDFS集群搭建-HA模式概念.mp4 ├─05hadoop-HDFS集群搭建-HA模式验证.mp4 ├─06hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS.mp4 ├─07hadoop-MapReduce原理精讲、轻松入门.mp4 ├─08hadoop-…

2021-05-12 0条评论 68点热度 1人点赞 柯广 阅读全文

一套Flink入门视频教程。 资料详情 |- 第1章 初识Flink - 文件夹 |- 第2章 快速上手开发第一个Flink应用程序 - 文件夹 |- 第3章 编程模型及核心概念 - 文件夹 |- 第4章 DataSet API编程 - 文件夹 |- 第5章 DataStream API编程 - 文件夹 |- 第6章 Flink Table API & SQL编程 - 文件夹 |- 第7章 Flink中的Time及Windows的使用 - 文件夹 |- 第8章 Flink Connectors - 文件夹 …

2021-05-12 0条评论 61点热度 0人点赞 柯广 阅读全文

一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。 一个状态…

2021-05-03 0条评论 81点热度 0人点赞 柯广 阅读全文

来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。 这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。 获取方法:关注公众号:Java大数据与数据仓库,回复"大数据",即可获得这份很全的文档。 视频,这个很大,百度网盘经常封禁这个,我建了个百度网盘群,可以加群,我分享到群共享里 获取方法:加百度网盘群:5575179552。 还有一些北方网、尚学堂、尚学堂的视频,也可以找我要,我的微信:ddxygq。 以上资源来源于网络,侵删。

2021-04-11 0条评论 704点热度 0人点赞 柯广 阅读全文

在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续等待了,直接出发。 这种机制跟这里要讲的watermark机制是一个意思。指的是,由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经…

2021-04-01 0条评论 1121点热度 0人点赞 柯广 阅读全文

关注公众号:Java大数据与数据仓库,回复 "资料",领取大数据资料,学习大数据技术。 窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。 Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批…

2021-04-01 0条评论 1095点热度 0人点赞 柯广 阅读全文

TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源; 基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; ProcessFunction 实现 TopN 功能; 2. 案例介绍 通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。 创建kafka生产者,发送测试数据到kafka; 消费kafka数据,使用滑动(sl…

2021-03-10 0条评论 1980点热度 0人点赞 柯广 阅读全文

explode 和 lateral view 为什么把这两个放一块呢,因为这两个经常放在一起用啊。 explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与later…

2021-03-04 0条评论 2304点热度 0人点赞 柯广 阅读全文

先来看一下2019年人口普查,也是第七次人口普查的男女性别比例数据,是目前最新的数据了。这里性别比,女性基数是100,例如:20 ~ 24这个区间,性别比是114.61,也就是说,114.6个男性对应100个女性。 可以看出,男女数量差异比较明显,但是在这个人口基数大国中,这个差异得以放大。那么,这个性别数量差异是怎么造成的呢?我们继续探究。 故事一 以前在农村重男轻女现象比较严重,我村里一户人家想要一个男孩,结果接连生了5胎,都是女孩。人生就是这样的倔强,也需要顽强,有时候你不坚持一下,你都不知道什么叫绝望。 故…

2021-02-03 0条评论 3501点热度 0人点赞 柯广 阅读全文

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。YARN架构如下: ResourceManager(RM):负责对各NM上的资源进行统一管理和调度,将AM分配空闲的Container运行并监控其运行状态。对AM申…

2021-01-27 0条评论 3774点热度 0人点赞 柯广 阅读全文

Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。 一、Spark核心组件回顾 Driver Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责: 1、将用户程序转化为任务(Job); 2、在Executor之间调度任务(task); 3、跟踪Executor的执行情况; 4、通过UI…

2021-01-14 0条评论 4308点热度 0人点赞 柯广 阅读全文

抽样 抽样在Hive 中也是比较常用的一种手段,主要用在下面的几个场景中 一些机器学习的场景中,数仓作为数据的提供方提供样本数据 数据的计算结果异常或者是指标异常,这个时候如果我们往往需要确认数据源的数据是否本身就有异常 SQL的性能有问题的时候我们也会使用抽样的方法区查看数据,然后进行SQL调优 在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。 随机抽样(rand()函数) 我们一般情况下是使用排序函数和rand…

2021-01-13 0条评论 4291点热度 0人点赞 柯广 阅读全文