10月 - 2021 - 等待下一个秋

本博客绝大部分博客为原创，本人有多年大数据开发经验，收徒弟，费用1000元，不喜勿扰，有意向加我微信：ddxygq。招收对象：在校大学生，毕业后想从事大数据相关工作；已经工作的，可以帮助解决工作中的问题。得到什么：精心准备的大数据学习资料，包括文档（精心整理）和一些视频（自己录制）；全程辅导，解答问题；多年企业大数据经验，倾囊相授。

2021年10月31日 2条评论 8125点热度 3人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、为什么要进行序列化序列化？可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。 2、Yarn中的container是由谁负责销毁的，在Hadoop M…

2021年10月30日 0条评论 4681点热度 0人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、Spark有哪两种算子？ Transformation（转化）算子和Action（执行）算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？在我们的开发过程中，能避免则尽可能避…

2021年10月28日 0条评论 5226点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆） 1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运…

2021年10月26日 0条评论 6123点热度 0人点赞等待下一个秋阅读全文

1、Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。 2、本…

2021年10月23日 0条评论 3202点热度 0人点赞等待下一个秋阅读全文

1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务数据本身的特性; （3）建表时考虑不周; （4）某些SQL语句本身就有数据倾斜; 如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。 …

2021年10月23日 0条评论 3558点热度 0人点赞等待下一个秋阅读全文

Hadoop面试题总结（五）——优化问题 1、MapReduce跑得慢的原因？（☆☆☆☆☆） Mapreduce 程序效率的瓶颈在于两点： 1）计算机性能 CPU、内存、磁盘健康、网络 2）I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spill次数过多（7）merge次数过多等 2、MapR…

2021年10月17日 1条评论 1429点热度 1人点赞等待下一个秋阅读全文

Hadoop面试题（四）——YARN 1、简述hadoop1与hadoop2 的架构异同 1）加入了yarn解决了资源调度的问题。 2）加入了对zookeeper的支持实现比较可靠的高可用。 2、为什么会产生 yarn,它解决了什么问题，有什么优势？ 1）Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。 2）Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序…… 3、HDFS的数据压缩算法?（☆☆☆☆☆） Hado…

2021年10月17日 0条评论 1277点热度 0人点赞等待下一个秋阅读全文

1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。（2）反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。（3）Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（…

2021年10月16日 0条评论 1214点热度 0人点赞等待下一个秋阅读全文

安装开始在 PHP 中使用 Redis 前，我们需要确保已经安装了 redis 服务及 PHP redis 驱动，且你的机器上能正常使用 PHP。接下来让我们安装 PHP redis 驱动：下载地址为:https://github.com/nicolasff/phpredis。 PHP安装redis扩展 /usr/local/php/bin/phpize #php安装后的路径 ./configure --with-php-config=/usr/local/php/bin/php-config make &a…

2021年10月14日 0条评论 2915点热度 0人点赞等待下一个秋阅读全文

12 3 4 5…7

收徒弟

Spark面试题整理（三）

Spark面试题（二）

Spark面试题（一）

Hive面试题整理（二）

Hive面试题整理（一）

Hadoop面试题总结（五）——优化问题

Hadoop面试题总结（四）——YARN

Hadoop面试题总结（三）——MapReduce

PHP 使用 Redis