Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。 1 LEAD 与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) 场景 用户Peter在浏…

2020年12月17日 0条评论 4701点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 公司运营免不了让我们数据做一些临时取数,这些取数有时候是重复的,或者可以做成可配置的。需要开发成界面,供他们选择,自然想到Spri…

2020年11月5日 0条评论 8775点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 java连接hive进行一些统计分析,在工作中再正常不过了。这里介绍通过java直连和mybatis整合的方式。 1. java直…

2020年10月29日 0条评论 9578点热度 0人点赞 ikeguang 阅读全文

SpringBoot连接Hive异常,错误信息如下: Table not found 'DUAL' 通过 jdbc的方式,都是可以的,这里咋就不行了。 原因 dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段 解决办法 在hive里面default库创建一个dual表,随便插入一条数据,重新启动SpringBoot程序,就可以连上hive了。 CREATE TABLE `dual`( `dummy` string); 新建一…

2020年10月27日 0条评论 8180点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 5057点热度 0人点赞 ikeguang 阅读全文

1. 内存溢出 虚拟内存溢出: Current usage: 1.1gb of 2.0gb physical memory used; 4.6gb of 4.2gb virtual memory used. Killing container.==【即虚拟内存溢出】==; 方法一:提高yarn.nodemanager.vmem-pmem-ratio = 5或者更高;【推荐】 方法二:yarn.nodemanager.vmem-check-enabled =false ;关闭虚拟内存检查;不推荐 方法三:提高物理内存…

2020年4月14日 0条评论 6085点热度 0人点赞 ikeguang 阅读全文

hive知识点 工作中hive常用知识点。 Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 创建hive表 # 新建个数据库test create database test; create external table if not e…

2020年4月14日 0条评论 4226点热度 0人点赞 ikeguang 阅读全文

数据仓库系列文章 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 一文搞懂ETL和ELT的区别 数据湖知识点 技术选型 | OLAP大数据技术哪家强? 数仓相关面试题 从 0 到 1 学习 Presto,这一篇就够了! 元数据管理在数据仓库的实践应用 做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台 数据仓库之拉链表 sqoop用法之mysql与hive数据导入导出 一. Sqoop介绍 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将…

2020年4月12日 0条评论 9451点热度 1人点赞 ikeguang 阅读全文

1. Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 2. Hive的安装 安装hive前请确保已经安装好hadoop集群,通常使用mysql作为hive的元数据库,所以需要安装mysql。 我的hadoop集群是用3台虚拟机搭建的,分…

2020年4月12日 0条评论 6511点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 hive创建orc格式表不能像textfile格式一样直接load数据到表中,需要创建临时textfile表,然后通过insert…

2020年4月12日 0条评论 6003点热度 0人点赞 ikeguang 阅读全文