等待下一个秋

  • Spark
  • Flink
  • Hive
  • 数据仓库
  • ClickHouse
  • 收徒弟
  • Java
    • Spring
    • Mybatis
    • SpringBoot
    • 面试题
  • Python
    • Python基础
    • 爬虫
    • Numpy
    • matplotlib
    • Flask
  • 技术杂谈
    • Linux知识
    • Docker
    • Git教程
    • Redis教程
    • mysql
    • 前端
    • R语言
    • 机器学习
  • 关于我
  • 其它
    • 副业挣钱
    • 资料下载
    • 资料文档
专注于Hadoop/Spark/Flink/Hive/数据仓库等
关注公众号:大数据技术派,获取更多学习资料。
大数据

Hbase构建二级索引的一些解决方案

1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。 二级索引的思想:简单理解就是,根据列族的列的值,查出rowkey,再按照rowkey就能很快从hbase查询出数据,我们需要构建出根据列族的列的值,很快查出rowkey的方案。 2 常见的二级索引方案 MapReduce方案; Coprocessor方案; elasticsearch+h…

2021年12月28日 0条评论 766点热度 0人点赞 等待下一个秋 阅读全文
Hive

Hive实战—时间滑动窗口计算

关注公众号:大数据技术派,回复资料,领取1024G资料。 [TOC] 时间滑动计算 今天遇到一个需求大致是这样的,我们有一个业务涉及到用户打卡,用户可以一天多次打卡,我们希望计算出7天内打卡8次以上,且打卡时间分布在4天以上的时间,当然这只是个例子,我们具体解释一下这个需求 用户一天可以打卡多次,所以要求打卡必须分布在4天以上; 7天不是一个自然周,而是某一天和接下来的6天,也就是说时间是是滑动的,窗口大小是7步长是1,说白了就是窗口计算; 其实说到这里你就想到了窗口函数,虽然这是一个窗口;但是hive却没有相应的…

2021年12月22日 0条评论 3578点热度 0人点赞 等待下一个秋 阅读全文
数据仓库

数仓建模—指标体系

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 关注公众号:大数据技术派,回复资料,领取1024G资料。 指标体系 提起指标这个词,每个人似乎都可以…

2021年12月19日 0条评论 4936点热度 0人点赞 等待下一个秋 阅读全文
Hive

Hive实战UDF 外部依赖文件找不到的问题

其实这篇文章的起源是,我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo,只能在本地读取,我需要将ip库上传到HDFS分布式存储,每个计算节点再从HDFS下载到本地。 那么到底能不能直接从HDFS读取呢?跟我强哥讲了这件事后,不服输的他把肝儿都熬黑了,终于给出了解决方案。 关于外部依赖文件找不到的问题 其实我在上一篇的总结中也说过了你需要确定的上传的db 文件在那里,也就是你在hive 中调用add file之后 会出现添加后的文件路径或者使用list 命令来看一下 今天我们…

2021年12月14日 0条评论 2816点热度 0人点赞 等待下一个秋 阅读全文
大数据

Flink Exactly-once 实现原理解析

关注公众号:大数据技术派,回复"资料",领取1024G资料。 这一课时我们将讲解 Flink “精确一次”的语义实现原理,同时这也是面试的必考点。 Flink 的“精确一次”处理语义是,Flink 提供了一个强大的语义保证,也就是说在任何情况下都能保证数据对应用产生的效果只有一次,不会多也不会少。 那么 Flink 是如何实现“端到端的精确一次处理”语义的呢? 背景 通常情况下,流式计算系统都会为用户提供指定数据处理的可靠模式功能,用来表明在实际生产运行中会对数据处理做哪些保障。一般来说,流处理…

2021年12月12日 0条评论 969点热度 0人点赞 等待下一个秋 阅读全文
数据仓库

数仓建模—宽表的设计

关注公众号:大数据技术派,回复“资料”,领取1024G资料。 数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 宽表的设计 其实宽表是数仓里面非常重要…

2021年12月1日 1条评论 4847点热度 1人点赞 等待下一个秋 阅读全文

等待下一个秋

待我代码写成,便娶你为妻!专注于Hadoop/Spark/Flink/Hive/数据仓库等,关注公众号:大数据技术派,获取更多学习资料。

搜一搜
标签聚合
算法 Flink 数据仓库 Python 挣钱 大数据 书籍 Java Hive mysql R语言 Redis
文章归档
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年9月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年5月
  • 2020年4月
  • 2020年1月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年1月
  • 2018年12月
  • 2017年5月

©2022 ikeguang.com. 保留所有权利。

鄂ICP备2020019097号-1

鄂公网安备 42032202000160号