等待下一个秋

  • Spark
  • Flink
  • Hive
  • 数据仓库
  • ClickHouse
  • 收徒弟
  • Java
    • Spring
    • Mybatis
    • SpringBoot
    • 面试题
  • Python
    • Python基础
    • 爬虫
    • Numpy
    • matplotlib
    • Flask
  • 技术杂谈
    • Linux知识
    • Docker
    • Git教程
    • Redis教程
    • mysql
    • 前端
    • R语言
    • 机器学习
  • 关于我
  • 其它
    • 副业挣钱
    • 资料下载
    • 资料文档
大数据
大数据

cdh中yarn调度spark,container资源倾斜,container集中于一台或几台机器

在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。 原因 yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false. 这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,在yar…

2020年7月8日 0条评论 9163点热度 0人点赞 等待下一个秋 阅读全文
Hive

hive关联hbase表

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 Hbase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。一种方法是使用hive关联hba…

2020年5月25日 0条评论 6196点热度 0人点赞 等待下一个秋 阅读全文
Hive

Hive知识点

hive知识点 工作中hive常用知识点。 Hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 创建hive表 # 新建个数据库test create database test; create external table if not e…

2020年4月14日 0条评论 4875点热度 0人点赞 等待下一个秋 阅读全文
Hive

hive中orc格式表的数据导入

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 hive创建orc格式表不能像textfile格式一样直接load数据到表中,需要创建临时textfile表,然后通过insert…

2020年4月12日 0条评论 7790点热度 0人点赞 等待下一个秋 阅读全文
大数据

hive常见问题

1 hiveserver2 不识别udf函数 新写的UDF在hive cli注册以后,无法在hiveserver2远程连接时使用,show functions没有这个函数。 在无法使用UDF的 HiveServer2 上,执行 reload function 命令,将MetaStore中新增的UDF信息同步到HiveServer2内存中,即可。 2 修复大量分区 在复制hive分区表的时候,将数据复制到hive表对应目录后需要修复元数据,如果一次修复的分区数据太大,会报错: hive> MSCK REPAIR TA…

2019年8月5日 1条评论 10678点热度 0人点赞 等待下一个秋 阅读全文
机器学习

程序员必备的一些数学基础知识

作为一个标准的程序员,应该有一些基本的数学素养,尤其现在很多人在学习人工智能相关知识,想抓住一波人工智能的机会。很多程序员可能连这样一些基础的数学问题都回答不上来。 矩阵A(m,n)与矩阵B(n,k)乘积C维度是多少? 抛一枚硬币,正面表示1,反面表示0,那么取值的数学期望E(x)是多少? 作为一个傲娇的程序员,应该要掌握这些数学基础知识,才更有可能码出一个伟大的产品。 线性代数 向量 向量(vector)是由一组实数组成的有序数组,同时具有大小和方向。一个n维向量a是由n个有序实数组成,表示为 a = [a1, …

2019年8月5日 0条评论 10605点热度 0人点赞 等待下一个秋 阅读全文
Hive

hive udf 使用方法

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求…

2019年4月8日 0条评论 5284点热度 0人点赞 等待下一个秋 阅读全文
大数据

使用scala编写flink消费kafka实时计算pv,uv

实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。 我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求. - 每秒钟要输出最新的统计结果; - 程序永远跑着不会停,所以要定期清理内存里的过时数据; - 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制; - 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出; Flink数据…

2019年4月5日 0条评论 4576点热度 0人点赞 等待下一个秋 阅读全文
大数据

实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 00 2 255496 596223 2018-07-27 01 ... ... ... ... ... 10 10490270 12927245 2018-07-27 10 关于什…

2019年3月26日 0条评论 4112点热度 0人点赞 等待下一个秋 阅读全文
1…45678

等待下一个秋

待我代码写成,便娶你为妻!专注于Hadoop/Spark/Flink/Hive/数据仓库等,关注公众号:大数据技术派,获取更多学习资料。

搜一搜
标签聚合
Hive Flink 数据仓库 Java R语言 Python Redis 大数据 mysql 算法 书籍 挣钱
文章归档
  • 2023年4月
  • 2023年3月
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年9月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年5月
  • 2020年4月
  • 2020年1月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年1月
  • 2018年12月
  • 2017年5月

©2022 ikeguang.com. 保留所有权利。

鄂ICP备2020019097号-1

鄂公网安备 42032202000160号