大数据组件安装 大数据组件安装安装文档,这些pdf(带目录)有的自己写的,有的整理于网络,有需要的关注公众号:大数据技术派,回复关键字大数据组件安装即可获得。 大数据资料 都放在Gitee上面了。 https://gitee.com/ddxygq/bigdata-technical-pai

2022年1月6日 0条评论 367点热度 0人点赞 ikeguang 阅读全文

1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。 二级索引的思想:简单理解就是,根据列族的列的值,查出rowkey,再按照rowkey就能很快从hbase查询出数据,我们需要构建出根据列族的列的值,很快查出rowkey的方案。 2 常见的二级索引方案 MapReduce方案; Coprocessor方案; elasticsearch+h…

2021年12月28日 0条评论 323点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复资料,领取1024G资料。 时间滑动计算 今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求 用户一天可以打卡多次,所以要求打卡必须分布在4天以上; 7天不是一个自然周,而是某一天和接下来的6天,也就是说时间是是滑动的,窗口大小是7步长是1,说白了就是窗口计算; 其实说到这里你就想到了窗口函数,虽然这是一个窗口;但是hive却没有相应的窗口函数可以…

2021年12月22日 0条评论 544点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复资料,领取1024G资料。 指标体系 提起指标这个词,每个人似乎都可以…

2021年12月19日 0条评论 1228点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复"资料",领取1024G资料。 这一课时我们将讲解 Flink “精确一次”的语义实现原理,同时这也是面试的必考点。 Flink 的“精确一次”处理语义是,Flink 提供了一个强大的语义保证,也就是说在任何情况下都能保证数据对应用产生的效果只有一次,不会多也不会少。 那么 Flink 是如何实现“端到端的精确一次处理”语义的呢? 背景 通常情况下,流式计算系统都会为用户提供指定数据处理的可靠模式功能,用来表明在实际生产运行中会对数据处理做哪些保障。一般来说,流处理…

2021年12月12日 0条评论 435点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复“资料”,领取1024G资料。 数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 宽表的设计 其实宽表是数仓里面非常重要…

2021年12月1日 1条评论 1121点热度 1人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复"资料",领取1024G资料。 2015 年,Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文。本文以这篇论文为引导,详细讲讲 Flink 内部是如何设计并实现批流一体的架构。 前言 通常我们在 Flink 中说批流一体指的是这四个方向,其中 Runtime 便是 Flink 运行时的实现。 数据交换模型 Flink 对于流作业和批作业有一个统一的执行模型。 …

2021年11月28日 0条评论 356点热度 0人点赞 ikeguang 阅读全文

主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责,相关岗位的信息是对各个招聘网站中的一些要求做了一个总结 一、大数据开发工程师: 1.要求 编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好(社招一般要求两种); 熟悉MySQL等至少一种数据库,熟悉SQL语言,熟悉Linux系统; 熟悉Hadoop/Hive/Flume/Kafka/HBase/Spark/Storm等技术及其生态圈。 2.岗位描述 负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架…

2021年11月25日 0条评论 294点热度 0人点赞 ikeguang 阅读全文

前言 要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C++等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C++或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等都有很多讲解了,也可以跟师兄师姐咨询,这样可以少走很多弯路,当然,有人说,走一些弯路总是有好处的,但是我这里说的弯路…

2021年11月24日 0条评论 579点热度 1人点赞 ikeguang 阅读全文

Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和DatasetAPI。 当计算结果的时候,使用的是相同的执行引擎,不依赖你正在使用哪种API或者语言。这种统一也…

2021年11月21日 0条评论 792点热度 0人点赞 ikeguang 阅读全文
123458