1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1)序列化和反序列化 (1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 (2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 (3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(…

2021年10月16日 0条评论 297点热度 0人点赞 ikeguang 阅读全文

1、 HDFS 中的 block 默认保存几份? 默认保存3份 2、HDFS 默认 BlockSize 是多大? 默认64MB 3、负责HDFS数据存储的是哪一部分? DataNode负责数据存储 4、SecondaryNameNode的目的是什么? 他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间 5、文件大小设置,增大有什么影响? HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128…

2021年10月11日 0条评论 355点热度 0人点赞 ikeguang 阅读全文

1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张…

2021年10月11日 0条评论 300点热度 0人点赞 ikeguang 阅读全文

一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像,使用vmware类似软件的同学指定,快照可以为虚拟机保存某个状态,如果做了更改,或者系统被折腾坏,还有个复原的操作。 快照应用在如下场景中: 防止用户的错误操作; 备份:给hdfs目录做快照,然后复制快照里面的文件到备份; 试验/测试 灾难恢复 HDFS的快照操作 这里测试的Hadoop3.0版本,也是我的线上版本。 开启快照 hdfs dfsadmin -allowSnapshot /data/test/test_snapshot [h…

2021年10月10日 0条评论 400点热度 0人点赞 ikeguang 阅读全文

因为前面Hbase2集群出现过一次故障,当时花了一个周末才修好,就去了解整理了一些hbase故障的,事故现场可以看前面写的一篇:Hbase集群挂掉的一次惊险经历 一. HBCK一致性 一致性是指Region在meta中的meta表信息、在线Regionserver的Region信息和hdfs的Regioninfo的Region信息的一致。 二. HBCK2与hbck1 HBCK2是后继hbck,该修复工具,随HBase的-1.x的(AKA hbck1)。使用HBCK2代替 hbck1对 hbase-2.x 集群进行…

2021年10月2日 0条评论 606点热度 0人点赞 ikeguang 阅读全文

行存储与列存储 当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction processing)联机分析处理 OLAP(On-Line Analytical Processing)=,OLTP 是传统关系型数据库的主要应用来执行一些基本的、日常的事务处理比如数据库记录的增、删、改、查等等而OLAP则是分布式数据库的主要应用它对实时性要求不高,但处理的数据量大通常应用于复杂的动态报表系统上 所以一般OLTP 都是使用行式存储的,因为实时性要求高,而且有大量的更新操作,OLAP 都…

2021年9月19日 0条评论 845点热度 0人点赞 ikeguang 阅读全文

Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.maxResultSize driver端接收的最大结果大小,默认1GB,最小1MB,设置0为无限。 这个参数不建议设置的太大,如果要做数据可视化,更应该控制在20-30MB以内。过大会导致OOM。 spark.extraL…

2021年8月15日 0条评论 534点热度 0人点赞 ikeguang 阅读全文

关注公众号:大数据技术派,回复“资料”,领取资料,学习大数据技术。 背景 随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性,HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本,1TB的原始数据需要占用3TB的磁盘空间,存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据,却和热数据一样存储3个副本,给存储空间和网络带宽带来了很大的压力。因此,在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。 Hadoop 3.0 引入…

2021年8月8日 1条评论 420点热度 0人点赞 ikeguang 阅读全文

有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。 可以通过一下几种方式实现hbase表的行数统计工作: 这里有一张hbase表test:test: hbase(main):009:0> scan 'test:test' ROW COLUMN+CELL 1 column=info:name, timestamp=1590221288866, value=tom 2 column=info:name, timestamp=1590221288866, va…

2021年6月16日 0条评论 485点热度 0人点赞 ikeguang 阅读全文

数据迁移使用场景 冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一致.数据准实时同步的目的在于数据的双备份可用,比如某天A集群突然宣告不允许再使用了,此时可以将线上使用集群直接切向B的同步…

2021年6月9日 0条评论 476点热度 0人点赞 ikeguang 阅读全文
123458