等待下一个秋

  • Spark
  • Flink
  • Hive
  • 数据仓库
  • 资料文档
  • Java
    • Spring
    • Mybatis
    • SpringBoot
    • 面试题
  • Python
    • Python基础
    • 爬虫
    • Numpy
    • matplotlib
    • Flask
  • 知识星球
  • 副业挣钱
  • 技术杂谈
    • Linux知识
    • Docker
    • Git教程
    • Redis教程
    • mysql
    • 前端
    • R语言
    • 机器学习
  • 其它
    • 关于我
    • 资料下载
    • 收徒弟
Spark
Spark

Spark—GraphX编程指南

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark…

2022年3月25日 0条评论 340点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark SQL知识点大全与实战

Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和DatasetAPI。 当计算结果的时候,使用的是相同的执行引擎,不依赖你正在使用哪种API或者语言。这种统一也…

2021年11月21日 0条评论 1022点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(八)——Spark的Shuffle配置调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、Shuffle优化配置 -spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的b…

2021年11月15日 0条评论 1175点热度 1人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(七)——Spark程序开发调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、程序开发调优 :避免创建重复的RDD 需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。 错误的做法: 对于同一份…

2021年11月15日 0条评论 820点热度 1人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(六)——Spark资源调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、资源运行情况 2、资源运行中的集中情况 (1)实践中跑的Spark job,有的特别慢,查看CPU利用率很低,可以尝试减少每个executor占用CPU core的数量,增加并行的executor数量…

2021年11月15日 0条评论 1237点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(五)——数据倾斜调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、数据倾斜 数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 数据倾斜俩大直接致…

2021年11月15日 0条评论 1173点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(四)

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、Spark中的HashShufle的有哪些不足? 1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作; 2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓…

2021年11月6日 0条评论 1161点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(二)

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子。 2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 在我们的开发过程中,能避免则尽可能避…

2021年10月28日 0条评论 1642点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(一)

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式   Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运…

2021年10月26日 0条评论 1768点热度 0人点赞 等待下一个秋 阅读全文
大数据

Spark开发常用参数

Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限。 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021年8月15日 0条评论 652点热度 0人点赞 等待下一个秋 阅读全文
12

等待下一个秋

待我代码写成,便娶你为妻!专注于Hadoop/Spark/Flink/Hive/数据仓库等,关注公众号:大数据技术派,获取更多学习资料。

搜一搜
标签聚合
Redis R语言 mysql 算法 书籍 大数据 Flink Python Hive 挣钱 Java 数据仓库
文章归档
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年5月
  • 2020年4月
  • 2020年1月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年1月
  • 2018年12月
  • 2017年5月

©2022 ikeguang.com. 保留所有权利。

鄂ICP备2020019097号-1

鄂公网安备 42032202000160号