1、原索引 PUT my_index { "mappings": { "_doc": { "properties": { "create_date": { "type": "date", "format": "yyyy-MM-dd ||yyyy/MM/dd" …
1、原索引 PUT my_index { "mappings": { "_doc": { "properties": { "create_date": { "type": "date", "format": "yyyy-MM-dd ||yyyy/MM/dd" …
1、 HDFS 中的 block 默认保存几份? 默认保存3份 2、HDFS 默认 BlockSize 是多大? 默认64MB 3、负责HDFS数据存储的是哪一部分? DataNode负责数据存储 4、SecondaryNameNode的目的是什么? 他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间 5、文件大小设置,增大有什么影响? HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128…
1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张…