Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 第04讲:Flink 常用的 DataSet 和 DataStream API 第05讲:Flink SQL & Table 编程和案例 第06讲:Flink 集群安装部署和 HA 配置 第07讲:Flink 常见核心概念分析 第08讲:Flink 窗口、时间和水印 第09讲:Flink 状态与容错 你好,欢迎来到第 01 课时…

2022年1月21日 0条评论 62点热度 0人点赞 ikeguang 阅读全文

步骤很简单,既然要基于yarn,前提是hadoop已经安装好了,我们选择hadoop集群的一个节点,安装一个flink客户端即可。我们平时提交任务,包括mr、spark任务等,也会去安装一个spark客户端。 选择一个节点,这个节点通常会用它提交任务。 下载flink wget http://archive.apache.org/dist/flink/flink-1.13.5/flink-1.13.5-bin-scala_2.11.tgz 解压 tar -zxvf flink-1.13.5-bin-scala_2.…

2022年1月13日 0条评论 43点热度 0人点赞 ikeguang 阅读全文

大数据组件安装 大数据组件安装安装文档,这些pdf(带目录)有的自己写的,有的整理于网络,有需要的关注公众号:大数据技术派,回复关键字大数据组件安装即可获得。 大数据资料 都放在Gitee上面了。 https://gitee.com/ddxygq/bigdata-technical-pai

2022年1月6日 0条评论 79点热度 0人点赞 ikeguang 阅读全文

2021,我这平凡的一年。 这一年,说它平凡,一点也不为过。似乎从小到大,我所遭遇的一切事物,都是那么的平平常常。没有大起大落,没有日新月异。或许平静的生活只是外表,而内心则是向往大千世界的。 感叹归感叹,还是总结一下这一年的一些平常琐碎,为接下来的一年做好准备铺垫吧。 1. 写作 今年写作不及往年,尤其不及2019年。是的,今年在坚持这条道路上走的不好,我一直以为这是懒惰,直到后来才醒悟过来,自己的拖延症也很严重。 今年主要强化了一些技术知识,并且写了很多文章,写文章的过程,也是不断成长的过程。因为要想写出一篇被…

2022年1月1日 2条评论 105点热度 0人点赞 ikeguang 阅读全文

1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。 二级索引的思想:简单理解就是,根据列族的列的值,查出rowkey,再按照rowkey就能很快从hbase查询出数据,我们需要构建出根据列族的列的值,很快查出rowkey的方案。 2 常见的二级索引方案 MapReduce方案; Coprocessor方案; elasticsearch+h…

2021年12月28日 0条评论 78点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复资料,领取1024G资料。 时间滑动计算 今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求 用户一天可以打卡多次,所以要求打卡必须分布在4天以上; 7天不是一个自然周,而是某一天和接下来的6天,也就是说时间是是滑动的,窗口大小是7步长是1,说白了就是窗口计算; 其实说到这里你就想到了窗口函数,虽然这是一个窗口;但是hive却没有相应的窗口函数可以…

2021年12月22日 0条评论 95点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复资料,领取1024G资料。 指标体系 提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等 事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述。例如我们可以从指标上判断一个产品的好坏,用户粘性等等,例如我们通过日活能去判断出我们整个产品的用户量,从而能反应出我们这个产品的一个健康程度,也就是否处于增长过程中。 一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题,快速定位原因,并且找…

2021年12月19日 0条评论 143点热度 0人点赞 ikeguang 阅读全文

其实这篇文章的起源是,我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo,只能在本地读取,我需要将ip库上传到HDFS分布式存储,每个计算节点再从HDFS下载到本地。 那么到底能不能直接从HDFS读取呢?跟我强哥讲了这件事后,不服输的他把肝儿都熬黑了,终于给出了解决方案。 关于外部依赖文件找不到的问题 其实我在上一篇的总结中也说过了你需要确定的上传的db 文件在那里,也就是你在hive 中调用add file之后 会出现添加后的文件路径或者使用list 命令来看一下 今天我们…

2021年12月14日 0条评论 110点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复"资料",领取1024G资料。 这一课时我们将讲解 Flink “精确一次”的语义实现原理,同时这也是面试的必考点。 Flink 的“精确一次”处理语义是,Flink 提供了一个强大的语义保证,也就是说在任何情况下都能保证数据对应用产生的效果只有一次,不会多也不会少。 那么 Flink 是如何实现“端到端的精确一次处理”语义的呢? 背景 通常情况下,流式计算系统都会为用户提供指定数据处理的可靠模式功能,用来表明在实际生产运行中会对数据处理做哪些保障。一般来说,流处理…

2021年12月12日 0条评论 112点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复“资料”,领取1024G资料。 宽表的设计 其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。 宽表主要出现在dwd 层和报表层,当然有的人说dws 层也有,宽表,从字面意义上讲就是字段比较多的数据库表,通常情况下是将很多相关的数据包括维度表、实时、已有的指标或者是dws/dwd 表关联在一起形成的一张数据表。 由于把不同的内容都…

2021年12月1日 1条评论 166点热度 0人点赞 ikeguang 阅读全文
1234537