Hive - 等待下一个秋

关注公众号：大数据技术派，回复: 资料，领取1024G资料。 Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法数据仓库之拉链表测试数据 1,2020-04-20,420 2,2020-04-04…

2022年2月18日 0条评论 3263点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。 [TOC] 时间滑动计算今天遇到一个需求大致是这样的，我们有一个业务涉及到用户打卡，用户可以一天多次打卡，我们希望计算出7天内打卡8次以上，且打卡时间分布在4天以上的时间，当然这只是个例子，我们具体解释一下这个需求用户一天可以打卡多次，所以要求打卡必须分布在4天以上； 7天不是一个自然周，而是某一天和接下来的6天，也就是说时间是是滑动的，窗口大小是7步长是1，说白了就是窗口计算；其实说到这里你就想到了窗口函数，虽然这是一个窗口；但是hive却没有相应的…

2021年12月22日 0条评论 4664点热度 0人点赞等待下一个秋阅读全文

其实这篇文章的起源是，我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo，只能在本地读取，我需要将ip库上传到HDFS分布式存储，每个计算节点再从HDFS下载到本地。那么到底能不能直接从HDFS读取呢？跟我强哥讲了这件事后，不服输的他把肝儿都熬黑了，终于给出了解决方案。关于外部依赖文件找不到的问题其实我在上一篇的总结中也说过了你需要确定的上传的db 文件在那里，也就是你在hive 中调用add file之后会出现添加后的文件路径或者使用list 命令来看一下今天我们…

2021年12月14日 0条评论 3405点热度 0人点赞等待下一个秋阅读全文

Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"…

2021年11月30日 0条评论 4688点热度 0人点赞等待下一个秋阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法数据仓库之拉链表强哥说他发现了财富密码，最近搞了一套股票算法，其中有一点涉及到股票连续涨停天数的计算方法，我们都知道股票周末是不开市的，这里有个断…

2021年11月4日 0条评论 3271点热度 0人点赞等待下一个秋阅读全文

1、Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。 2、本…

2021年10月23日 0条评论 3206点热度 0人点赞等待下一个秋阅读全文

1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务数据本身的特性; （3）建表时考虑不周; （4）某些SQL语句本身就有数据倾斜; 如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。 …

2021年10月23日 0条评论 3564点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。 Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法数据仓库之拉链表最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我…

2021年9月20日 0条评论 3391点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。行存储与列存储当今的数据处理大致可分为两大类，联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=，OLTP 是传统关系型数据库的主要应用来执行一些基本的、日常的事务处理比如数据库记录的增、删、改、查等等而OLAP则是分布式数据库的主要应用它对实时性要求不高，但处理的数据量大通常应用于复杂的动态报表系统上所以一般OLTP 都是使用行式存…

2021年9月19日 0条评论 5031点热度 0人点赞等待下一个秋阅读全文

explode 和 lateral view 为什么把这两个放一块呢，因为这两个经常放在一起用啊。 explode与lateral view在关系型数据库中本身是不该出现的，因为他的出现本身就是在操作不满足第一范式的数据（每个属性都不可再分），本身已经违背了数据库的设计原理（不论是业务系统还是数据仓库系统），不过大数据技术普及后，很多类似pv，uv的数据，在业务系统中是存贮在非关系型数据库中，用json存储的概率比较大，直接导入hive为基础的数仓系统中，就需要经过ETL过程解析这类数据，explode与later…

2021年3月4日 0条评论 10934点热度 0人点赞等待下一个秋阅读全文

12 3 4

Hive之同比环比的计算

Hive实战—时间滑动窗口计算

Hive实战UDF 外部依赖文件找不到的问题

Hive处理Json数据

Hive计算最大连续登陆天数

Hive面试题整理（二）

Hive面试题整理（一）

彻底解决Hive小文件问题

一文搞懂Hive的存储格式与压缩格式

Hive必会SQL语法explode 和 lateral view