最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18 关于什么是pv,uv,可以参见这篇博客:https://blog.csdn.net/petermsh/article/details/78652246 1、项目流程 日志数据从…

2021年6月3日 0条评论 505点热度 0人点赞 ikeguang 阅读全文

经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。 基本的,你得知道had…

2021年5月24日 0条评论 693点热度 0人点赞 ikeguang 阅读全文

一套Hadoop入门视频教程。 资料详情 ├─01hadoop-大数据启蒙-初识HDFS.flv ├─02hadoop-HDFS理论基础读写流程.flv ├─03hadoop-HDFS集群搭建-伪分布式模式.mp4 ├─04hadoop-HDFS集群搭建-HA模式概念.mp4 ├─05hadoop-HDFS集群搭建-HA模式验证.mp4 ├─06hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS.mp4 ├─07hadoop-MapReduce原理精讲、轻松入门.mp4 ├─08hadoop-…

2021年5月12日 0条评论 489点热度 1人点赞 ikeguang 阅读全文

一套Flink入门视频教程。 资料详情 |- 第1章 初识Flink - 文件夹 |- 第2章 快速上手开发第一个Flink应用程序 - 文件夹 |- 第3章 编程模型及核心概念 - 文件夹 |- 第4章 DataSet API编程 - 文件夹 |- 第5章 DataStream API编程 - 文件夹 |- 第6章 Flink Table API & SQL编程 - 文件夹 |- 第7章 Flink中的Time及Windows的使用 - 文件夹 |- 第8章 Flink Connectors - 文件夹 …

2021年5月12日 0条评论 661点热度 0人点赞 ikeguang 阅读全文

一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。 一个状态…

2021年5月3日 0条评论 640点热度 0人点赞 ikeguang 阅读全文

来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。 这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。 获取方法:关注公众号:大数据技术派,回复"大数据",即可获得这份很全的文档。 我自己整理了一份pdf: 链接:https://pan.baidu.com/s/1-aTKicy0Yr9c3-dv0bIExA 提取码:1314 复制这段内容后打开百度网盘手机App,操作更方便哦 视频,这个很大,百度网盘经常封禁这个,我建了个百度网盘群,可…

2021年4月11日 0条评论 1521点热度 1人点赞 ikeguang 阅读全文

在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续等待了,直接出发。 这种机制跟这里要讲的watermark机制是一个意思。指的是,由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经…

2021年4月1日 0条评论 2021点热度 0人点赞 ikeguang 阅读全文

关注公众号:Java大数据与数据仓库,回复 "资料",领取大数据资料,学习大数据技术。 窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。 Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批…

2021年4月1日 0条评论 2299点热度 1人点赞 ikeguang 阅读全文

TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源; 基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; ProcessFunction 实现 TopN 功能; 2. 案例介绍 通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。 创建kafka生产者,发送测试数据到kafka; 消费kafka数据,使用滑动(sl…

2021年3月10日 0条评论 2445点热度 0人点赞 ikeguang 阅读全文

explode 和 lateral view 为什么把这两个放一块呢,因为这两个经常放在一起用啊。 explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与later…

2021年3月4日 0条评论 4096点热度 0人点赞 ikeguang 阅读全文
145678