本博客绝大部分博客为原创,本人有多年大数据开发经验,收徒弟,有意向加我微信:ddxygq。 招收对象: 在校大学生,毕业后想从事大数据相关工作; 已经工作的,想提升自己的技能。 得到什么: 精心准备的大数据学习资料,包括文档(精心整理)和一些视频(自己录制); 全程辅导,解答问题; 多年企业大数据经验,倾囊相授。

2021年10月31日 2条评论 932点热度 2人点赞 ikeguang 阅读全文

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、为什么要进行序列化序列化? 可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 2、Yarn中的container是由谁负责销毁的,在Hadoop M…

2021年10月30日 0条评论 837点热度 0人点赞 ikeguang 阅读全文

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 在我们的开发过程中,能避免则尽可能避…

2021年10月28日 0条评论 1251点热度 0人点赞 ikeguang 阅读全文

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式   Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运…

2021年10月26日 0条评论 1337点热度 0人点赞 ikeguang 阅读全文

1、Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。 2、本…

2021年10月23日 0条评论 329点热度 0人点赞 ikeguang 阅读全文

1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)   1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。   (1)key分布不均匀;   (2)业务数据本身的特性;   (3)建表时考虑不周;   (4)某些SQL语句本身就有数据倾斜;   如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。   …

2021年10月23日 0条评论 551点热度 0人点赞 ikeguang 阅读全文

Hadoop面试题总结(五)——优化问题 1、MapReduce跑得慢的原因?(☆☆☆☆☆) Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能   CPU、内存、磁盘健康、网络 2)I/O 操作优化   (1)数据倾斜   (2)map和reduce数设置不合理   (3)reduce等待过久   (4)小文件过多   (5)大量的不可分块的超大文件   (6)spill次数过多   (7)merge次数过多等 2、MapR…

2021年10月17日 1条评论 310点热度 1人点赞 ikeguang 阅读全文

Hadoop面试题(四)——YARN 1、简述hadoop1与hadoop2 的架构异同 1)加入了yarn解决了资源调度的问题。 2)加入了对zookeeper的支持实现比较可靠的高可用。 2、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。 2)Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、storm程序,spark程序…… 3、HDFS的数据压缩算法?(☆☆☆☆☆) Hado…

2021年10月17日 0条评论 381点热度 0人点赞 ikeguang 阅读全文

1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(…

2021年10月16日 0条评论 297点热度 0人点赞 ikeguang 阅读全文

安装 开始在 PHP 中使用 Redis 前, 我们需要确保已经安装了 redis 服务及 PHP redis 驱动,且你的机器上能正常使用 PHP。 接下来让我们安装 PHP redis 驱动:下载地址为:https://github.com/nicolasff/phpredis。 PHP安装redis扩展 /usr/local/php/bin/phpize #php安装后的路径 ./configure --with-php-config=/usr/local/php/bin/php-config make &a…

2021年10月14日 0条评论 226点热度 0人点赞 ikeguang 阅读全文
123457