Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限。 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021-08-15 0条评论 64点热度 0人点赞 柯广 阅读全文

关注公众号:Java大数据与数据仓库,回复“资料”,领取资料,学习大数据技术。 背景 随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性,HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本,1TB的原始数据需要占用3TB的磁盘空间,存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据,却和热数据一样存储3个副本,给存储空间和网络带宽带来了很大的压力。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。 Hadoop …

2021-08-08 0条评论 77点热度 0人点赞 柯广 阅读全文

有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, va…

2021-06-16 0条评论 180点热度 0人点赞 柯广 阅读全文

实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用Flink实时计算pv,uv。 我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求. - 每秒钟要输出最新的统计结果; - 程序永远跑着不会停,所以要定期清理内存里的过时数据; - 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制; - 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出; Flink数据…

2021-06-10 0条评论 212点热度 0人点赞 柯广 阅读全文

数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一致.数据准实时同步的目的在于数据的双备份可用,比如某天A集群突然宣告不允许再使用了,此时可以将线上使用集群直接切向B的同步…

2021-06-09 0条评论 203点热度 0人点赞 柯广 阅读全文

%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。 符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。 简单例子 比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步: 计算a = x+1的值; 计算b = a^2的值; 计算c = sin(b)的值 这样…

2021-06-09 0条评论 222点热度 0人点赞 柯广 阅读全文

阅读本文需要的知识储备: 高等数学 运筹学 Python基础 1、引出梯度下降 对于,线性回归问题,上一篇我们用的是最小二乘法,很多人听到这个,或许会说:天杀的最小二乘法,因为很多人对它太敏感了。是的,从小到大,天天最小二乘法,能不能来点新花样。这里就用数学算法——梯度下降,来解决,寻优问题。 当然了,我们的目标函数还是: 在开始之前,我还是上大家熟知常见的图片。 梯度下山图片(来源:百度图片) 找了好久,我选了这张图片,因为我觉得这张图片很形象:天气骤变,一个人需要快速下山回家,但是他迷路了,不知道怎么回家,他知…

2021-06-09 0条评论 265点热度 0人点赞 柯广 阅读全文

最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18 关于什么是pv,uv,可以参见这篇博客:https://blog.csdn.net/petermsh/article/details/78652246 1、项目流程 日志数据从…

2021-06-03 0条评论 223点热度 0人点赞 柯广 阅读全文

Centos安装docker需要操作系统是 CentOS 7 or 8,必须启用centos extras存储库。默认情况下,此存储库处于启用状态,但如果已禁用它,则需要重新启用它。 卸载旧版本 老版本的docker被称作docker 或者 docker-engine,如果有老版本的docker,把它和相关依赖一起卸载。 $ remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-la…

2021-05-28 2条评论 323点热度 0人点赞 柯广 阅读全文

当你看到这篇文章的时候,表明你已经有docker的基础知识了,或者可以看上一篇文章 Docker 入门教程。 传统的使用wordpress搭建网站,意味着你需要搭建以下四个环境: - php; - apache / nginx; - mysql; - wordpress; 这里面主要是php的搭建真心麻烦,各种依赖,版本不兼容,然后还有php跟mysql的插件,我是吃了它很大的苦,寻求让我快乐的方法,知道我发现了它。使用docker容器技术5分钟快速搭建wordpress,相信我,真的是五分钟。 一台linux服务…

2021-05-27 0条评论 332点热度 0人点赞 柯广 阅读全文

作者: 阮一峰 日期: 2018年2月 9日 原文链接:Docker入门教程 2013年发布至今, Docker 一直广受瞩目,被认为可能会改变软件行业。 但是,许多人并不清楚 Docker 到底是什么,要解决什么问题,好处又在哪里?本文就来详细解释,帮助大家理解它,还带有简单易懂的实例,教你如何将它用于日常开发。 一、环境配置的难题 软件开发最大的麻烦事之一,就是环境配置。用户计算机的环境都不相同,你怎么知道自家的软件,能在那些机器跑起来? 用户必须保证两件事:操作系统的设置,各种库和组件的安装。只有它们都正确,…

2021-05-27 0条评论 313点热度 0人点赞 柯广 阅读全文

经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。 基本的,你得知道had…

2021-05-24 0条评论 313点热度 0人点赞 柯广 阅读全文

1. scala的由来 scala是一门多范式的编程语言,一种类似java的编程语言[2] ,设计初衷是要集成面向对象编程和函数式编程的各种特性。 java和c++的进化速度已经大不如从前,那么乐于使用更现代的语言特性的程序员们正在将眼光移向他处。scala是一个很有吸引力的选择;事实上,在我看来,对于想要突破和超越java或者c++的程序员而言,scala是最具吸引力的一个。scala的语法十分简洁,相比java的样板代码,scala让人耳目一新。scala运行于java虚拟机之上,让我们可以使用现成的海量类库和…

2021-05-15 0条评论 203点热度 0人点赞 柯广 阅读全文

一、前言 有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。 对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。 一个状态…

2021-05-03 0条评论 194点热度 0人点赞 柯广 阅读全文

来吧,这个是传智播客的大数据视频资料,包括每一天的文档和视频。 这个是文档,大部分人应该都是想要文档,除了没有基础的新手,而不想要视频,因为看视频真的太花时间啦。 获取方法:关注公众号:Java大数据与数据仓库,回复"大数据",即可获得这份很全的文档。 视频,这个很大,百度网盘经常封禁这个,我建了个百度网盘群,可以加群,我分享到群共享里 获取方法:加百度网盘群:5575179552。 还有一些北方网、尚学堂、尚学堂的视频,也可以找我要,我的微信:ddxygq。 以上资源来源于网络,侵删。

2021-04-11 0条评论 890点热度 0人点赞 柯广 阅读全文
1234512