Spark - 等待下一个秋

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 GraphX 是新的图形和图像并行计算的Spark API。从整理上看，GraphX 通过引入弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark…

2022年3月25日 0条评论 3156点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。 Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息去做一些额外的优化，有多种方式与Spark SQL进行交互，比如: SQL和DatasetAPI。当计算结果的时候，使用的是相同…

2021年11月21日 0条评论 4783点热度 0人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、Shuffle优化配置 -spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的b…

2021年11月15日 0条评论 4839点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、程序开发调优：避免创建重复的RDD 需要对名为“hello.txt”的HDFS文件进行一次map操作，再进行一次reduce操作。也就是说，需要对一份数据执行两次算子操作。错误的做法：对于同一份…

2021年11月15日 0条评论 4102点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、资源运行情况 2、资源运行中的集中情况（1）实践中跑的Spark job，有的特别慢，查看CPU利用率很低，可以尝试减少每个executor占用CPU core的数量，增加并行的executor数量…

2021年11月15日 0条评论 5616点热度 0人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致…

2021年11月15日 0条评论 5101点热度 0人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、Spark中的HashShufle的有哪些不足？ 1）shuffle产生海量的小文件在磁盘上，此时会产生大量耗时的、低效的IO操作； 2）容易导致内存不够用，由于内存需要保存海量的文件操作句柄和临时缓…

2021年11月6日 0条评论 4429点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、Spark有哪两种算子？ Transformation（转化）算子和Action（执行）算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？在我们的开发过程中，能避免则尽可能避…

2021年10月28日 0条评论 5227点热度 1人点赞等待下一个秋阅读全文

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调优 Spark面试题（七）——Spark程序开发调优 Spark面试题（八）——Spark的Shuffle配置调优 1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆） 1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运…

2021年10月26日 0条评论 6125点热度 0人点赞等待下一个秋阅读全文

Driver spark.driver.cores driver端分配的核数，默认为1，thriftserver是启动thriftserver服务的机器，资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数，默认为1g，同上。 spark.driver.maxResultSize driver端接收的最大结果大小，默认1GB，最小1MB，设置0为无限。这个参数不建议设置的太大，如果要做数据可视化，更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021年8月15日 0条评论 1439点热度 0人点赞等待下一个秋阅读全文

Spark—GraphX编程指南

Spark SQL知识点大全与实战

Spark面试题（八）——Spark的Shuffle配置调优

Spark面试题（七）——Spark程序开发调优

Spark面试题（六）——Spark资源调优

Spark面试题（五）——数据倾斜调优

Spark面试题（四）

Spark面试题（二）

Spark面试题（一）

Spark开发常用参数