8月 - 2021 - 等待下一个秋

Driver spark.driver.cores driver端分配的核数，默认为1，thriftserver是启动thriftserver服务的机器，资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数，默认为1g，同上。 spark.driver.maxResultSize driver端接收的最大结果大小，默认1GB，最小1MB，设置0为无限。这个参数不建议设置的太大，如果要做数据可视化，更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021年8月15日 0条评论 1585点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复“资料”，领取资料，学习大数据技术。背景随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性，HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本，1TB的原始数据需要占用3TB的磁盘空间，存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据，却和热数据一样存储3个副本，给存储空间和网络带宽带来了很大的压力。因此，在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。 Hadoop 3.0 引入…

2021年8月8日 1条评论 1562点热度 0人点赞等待下一个秋阅读全文

Spark开发常用参数

Hadoop3 纠删码