Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 4981点热度 0人点赞 ikeguang 阅读全文

hive知识点 工作中hive常用知识点。 Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 创建hive表 # 新建个数据库test create database test; create external table if not e…

2020年4月14日 0条评论 4168点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 hive创建orc格式表不能像textfile格式一样直接load数据到表中,需要创建临时textfile表,然后通过insert…

2020年4月12日 0条评论 5860点热度 0人点赞 ikeguang 阅读全文

1 hiveserver2 不识别udf函数 新写的UDF在hive cli注册以后,无法在hiveserver2远程连接时使用,show functions没有这个函数。 在无法使用UDF的 HiveServer2 上,执行 reload function 命令,将MetaStore中新增的UDF信息同步到HiveServer2内存中,即可。 2 修复大量分区 在复制hive分区表的时候,将数据复制到hive表对应目录后需要修复元数据,如果一次修复的分区数据太大,会报错: hive> MSCK REPAIR TA…

2019年8月5日 1条评论 10029点热度 0人点赞 ikeguang 阅读全文

作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。 矩阵A(m,n)与矩阵B(n,k)乘积C维度是多少? 抛一枚硬币,正面表示1,反面表示0,那么取值的数学期望E(x)是多少? 作为一个傲娇的程序员,应该要掌握这些数学基础知识,才更有可能码出一个伟大的产品。 线性代数 向量 向量(vector)是由一组实数组成的有序数组,同时具有大小和方向。一个n维向量a是由n个有序实数组成,表示为 a = [a1, …

2019年8月5日 0条评论 9270点热度 0人点赞 ikeguang 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求…

2019年4月8日 0条评论 4025点热度 0人点赞 ikeguang 阅读全文

实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。 我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求. - 每秒钟要输出最新的统计结果; - 程序永远跑着不会停,所以要定期清理内存里的过时数据; - 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制; - 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出; Flink数据…

2019年4月5日 0条评论 4116点热度 0人点赞 ikeguang 阅读全文

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 00 2 255496 596223 2018-07-27 01 ... ... ... ... ... 10 10490270 12927245 2018-07-27 10 关于什…

2019年3月26日 0条评论 3432点热度 0人点赞 ikeguang 阅读全文
145678