实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用Flink实时计算pv,uv。 我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求. - 每秒钟要输出最新的统计结果; - 程序永远跑着不会停,所以要定期清理内存里的过时数据; - 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制; - 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出; Flink数据…

2021-06-10 0条评论 34点热度 0人点赞 柯广 阅读全文

数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一致.数据准实时同步的目的在于数据的双备份可用,比如某天A集群突然宣告不允许再使用了,此时可以将线上使用集群直接切向B的同步…

2021-06-09 0条评论 24点热度 0人点赞 柯广 阅读全文

%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。 符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。 简单例子 比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步: 计算a = x+1的值; 计算b = a^2的值; 计算c = sin(b)的值 这样…

2021-06-09 0条评论 17点热度 0人点赞 柯广 阅读全文

阅读本文需要的知识储备: 高等数学 运筹学 Python基础 1、引出梯度下降 对于,线性回归问题,上一篇我们用的是最小二乘法,很多人听到这个,或许会说:天杀的最小二乘法,因为很多人对它太敏感了。是的,从小到大,天天最小二乘法,能不能来点新花样。这里就用数学算法——梯度下降,来解决,寻优问题。 当然了,我们的目标函数还是: 在开始之前,我还是上大家熟知常见的图片。 梯度下山图片(来源:百度图片) 找了好久,我选了这张图片,因为我觉得这张图片很形象:天气骤变,一个人需要快速下山回家,但是他迷路了,不知道怎么回家,他知…

2021-06-09 0条评论 16点热度 0人点赞 柯广 阅读全文

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18 关于什么是pv,uv,可以参见这篇博客:https://blog.csdn.net/petermsh/article/details/78652246 1、项目流程 日志数据从…

2021-06-03 0条评论 48点热度 0人点赞 柯广 阅读全文

Centos安装docker需要操作系统是 CentOS 7 or 8,必须启用centos extras存储库。默认情况下,此存储库处于启用状态,但如果已禁用它,则需要重新启用它。 卸载旧版本 老版本的docker被称作docker 或者 docker-engine,如果有老版本的docker,把它和相关依赖一起卸载。 $ remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-la…

2021-05-28 2条评论 111点热度 0人点赞 柯广 阅读全文

当你看到这篇文章的时候,表明你已经有docker的基础知识了,或者可以看上一篇文章 Docker 入门教程。 传统的使用wordpress搭建网站,意味着你需要搭建以下四个环境: - php; - apache / nginx; - mysql; - wordpress; 这里面主要是php的搭建真心麻烦,各种依赖,版本不兼容,然后还有php跟mysql的插件,我是吃了它很大的苦,寻求让我快乐的方法,知道我发现了它。使用docker容器技术5分钟快速搭建wordpress,相信我,真的是五分钟。 一台linux服务…

2021-05-27 0条评论 67点热度 0人点赞 柯广 阅读全文

作者: 阮一峰 日期: 2018年2月 9日 原文链接:Docker入门教程 2013年发布至今, Docker 一直广受瞩目,被认为可能会改变软件行业。 但是,许多人并不清楚 Docker 到底是什么,要解决什么问题,好处又在哪里?本文就来详细解释,帮助大家理解它,还带有简单易懂的实例,教你如何将它用于日常开发。 一、环境配置的难题 软件开发最大的麻烦事之一,就是环境配置。用户计算机的环境都不相同,你怎么知道自家的软件,能在那些机器跑起来? 用户必须保证两件事:操作系统的设置,各种库和组件的安装。只有它们都正确,…

2021-05-27 0条评论 58点热度 0人点赞 柯广 阅读全文

经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。 基本的,你得知道had…

2021-05-24 0条评论 62点热度 0人点赞 柯广 阅读全文

1. scala的由来 scala是一门多范式的编程语言,一种类似java的编程语言[2] ,设计初衷是要集成面向对象编程和函数式编程的各种特性。 java和c++的进化速度已经大不如从前,那么乐于使用更现代的语言特性的程序员们正在将眼光移向他处。scala是一个很有吸引力的选择;事实上,在我看来,对于想要突破和超越java或者c++的程序员而言,scala是最具吸引力的一个。scala的语法十分简洁,相比java的样板代码,scala让人耳目一新。scala运行于java虚拟机之上,让我们可以使用现成的海量类库和…

2021-05-15 0条评论 63点热度 0人点赞 柯广 阅读全文

一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。 一个状态…

2021-05-03 0条评论 81点热度 0人点赞 柯广 阅读全文

来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。 这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。 获取方法:关注公众号:Java大数据与数据仓库,回复"大数据",即可获得这份很全的文档。 视频,这个很大,百度网盘经常封禁这个,我建了个百度网盘群,可以加群,我分享到群共享里 获取方法:加百度网盘群:5575179552。 还有一些北方网、尚学堂、尚学堂的视频,也可以找我要,我的微信:ddxygq。 以上资源来源于网络,侵删。

2021-04-11 0条评论 704点热度 0人点赞 柯广 阅读全文

在上一篇文章中我们介绍了窗口相关的内容,那么问题来了,比如公司组织春游,规定周六早晨8:00 ~ 8:30清查人数,人齐则发车出发,可是总有那么个同学会睡懒觉迟到,这时候通常也会等待20分钟,但是不能一直等下去,如果到了20分钟则认为,想自己在家过周末,不参与春游活动了,不会继续等待了,直接出发。 这种机制跟这里要讲的watermark机制是一个意思。指的是,由于网络延迟等原因,一条数据会迟到计算,比如使用event time来划分窗口,我们知道窗口中的数据是计算一段时间的数据,如果一个数据来晚了,它的时间范围已经…

2021-04-01 0条评论 1121点热度 0人点赞 柯广 阅读全文

关注公众号:Java大数据与数据仓库,回复 "资料",领取大数据资料,学习大数据技术。 窗口 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。 Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批…

2021-04-01 0条评论 1095点热度 0人点赞 柯广 阅读全文

TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 Flink创建kafka数据源; 基于 EventTime 处理,如何指定 Watermark; Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口; State状态的使用; ProcessFunction 实现 TopN 功能; 2. 案例介绍 通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。 创建kafka生产者,发送测试数据到kafka; 消费kafka数据,使用滑动(sl…

2021-03-10 0条评论 1979点热度 0人点赞 柯广 阅读全文
1234511