Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限。 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021年8月15日 0条评论 534点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复“资料”,领取资料,学习大数据技术。 背景 随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性,HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本,1TB的原始数据需要占用3TB的磁盘空间,存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据,却和热数据一样存储3个副本,给存储空间和网络带宽带来了很大的压力。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。 Hadoop 3.0 引入…

2021年8月8日 1条评论 420点热度 0人点赞 ikeguang 阅读全文