等待下一个秋

  • Spark
  • Flink
  • Hive
  • 数据仓库
  • ClickHouse
  • 收徒弟
  • Java
    • Spring
    • Mybatis
    • SpringBoot
    • 面试题
  • Python
    • Python基础
    • 爬虫
    • Numpy
    • matplotlib
    • Flask
  • 技术杂谈
    • Linux知识
    • Docker
    • Git教程
    • Redis教程
    • mysql
    • 前端
    • R语言
    • 机器学习
  • 关于我
  • 其它
    • 副业挣钱
    • 资料下载
    • 资料文档
专注于Hadoop/Spark/Flink/Hive/数据仓库等
关注公众号:大数据技术派,获取更多学习资料。
Hive

Hive处理Json数据

Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法 准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"…

2021年11月30日 0条评论 3219点热度 0人点赞 等待下一个秋 阅读全文
大数据

Flink 是如何统一批流引擎的

关注公众号:大数据技术派,回复"资料",领取1024G资料。 2015 年,Flink 的作者就写了 Apache Flink: Stream and Batch Processing in a Single Engine 这篇论文。本文以这篇论文为引导,详细讲讲 Flink 内部是如何设计并实现批流一体的架构。 前言 通常我们在 Flink 中说批流一体指的是这四个方向,其中 Runtime 便是 Flink 运行时的实现。 数据交换模型 Flink 对于流作业和批作业有一个统一的执行模型。 …

2021年11月28日 0条评论 807点热度 0人点赞 等待下一个秋 阅读全文
其它

工作三年的一些感悟

因为我工作已经大于3年了,在周五法定摸鱼时间,偶然看到博客园一位同学分享的他自己工作三年的感悟,觉得触动了我,分享出来,与君共勉。 前言 你的未来时刻因你现在的努力而改变! 在努力不够的时候,永远不要谈天赋!   工作三年,时不时会和身边的朋友、同学,谈论开发这个岗位的前途性,总觉得事多且累,学不完的新技术。   A同学:放弃了一个更高薪的工作,去了一个外企“躺平”,不怎么加班,几乎大家都是到点就走。   B同学:在互联网工作两年后,开始想要去考公务员,也确实去考了,但是好像没考上。   其实,不管在哪里,都需要努…

2021年11月27日 0条评论 736点热度 0人点赞 等待下一个秋 阅读全文
大数据

大数据相关岗位介绍

主要是介绍现在大数据中的一些岗位的要求、岗位描述和岗位职责,相关岗位的信息是对各个招聘网站中的一些要求做了一个总结 一、大数据开发工程师: 1.要求 编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好(社招一般要求两种); 熟悉MySQL等至少一种数据库,熟悉SQL语言,熟悉Linux系统; 熟悉Hadoop/Hive/Flume/Kafka/HBase/Spark/Storm等技术及其生态圈。 2.岗位描述 负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架…

2021年11月25日 0条评论 640点热度 0人点赞 等待下一个秋 阅读全文
大数据

大数据学习路线

前言 要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C++等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C++或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等都有很多讲解了,也可以跟师兄师姐咨询,这样可以少走很多弯路,当然,有人说,走一些弯路总是有好处的,但是我这里说的弯路…

2021年11月24日 0条评论 2075点热度 1人点赞 等待下一个秋 阅读全文
Spark

Spark SQL知识点大全与实战

关注公众号:大数据技术派,回复资料,领取1024G资料。 Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和DatasetAPI。 当计算结果的时候,使用的是相同…

2021年11月21日 0条评论 3872点热度 0人点赞 等待下一个秋 阅读全文
大数据

大数据简介

一、大数据概论 大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byte = 8bit1K = 1024bit1MB = 1024K1G = 1024M 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E 1Y…

2021年11月20日 0条评论 610点热度 0人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(八)——Spark的Shuffle配置调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、Shuffle优化配置 -spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的b…

2021年11月15日 0条评论 3843点热度 1人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(七)——Spark程序开发调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、程序开发调优 :避免创建重复的RDD 需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。 错误的做法: 对于同一份…

2021年11月15日 0条评论 3362点热度 1人点赞 等待下一个秋 阅读全文
Spark

Spark面试题(六)——Spark资源调优

Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调优 Spark面试题(七)——Spark程序开发调优 Spark面试题(八)——Spark的Shuffle配置调优 1、资源运行情况 2、资源运行中的集中情况 (1)实践中跑的Spark job,有的特别慢,查看CPU利用率很低,可以尝试减少每个executor占用CPU core的数量,增加并行的executor数量…

2021年11月15日 0条评论 4269点热度 0人点赞 等待下一个秋 阅读全文
123

等待下一个秋

待我代码写成,便娶你为妻!专注于Hadoop/Spark/Flink/Hive/数据仓库等,关注公众号:大数据技术派,获取更多学习资料。

搜一搜
标签聚合
书籍 算法 R语言 mysql 挣钱 Hive Redis Flink Python Java 大数据 数据仓库
文章归档
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年9月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年5月
  • 2020年4月
  • 2020年1月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年1月
  • 2018年12月
  • 2017年5月

©2022 ikeguang.com. 保留所有权利。

鄂ICP备2020019097号-1

鄂公网安备 42032202000160号