活了二十多年,没能为祖国、为人民做点什么,每思及此,伤心欲绝 !

标签:大数据

大数据

生男生女概率一样吗?为什么中国男性多于女性?

生男生女概率一样吗?为什么中国男性多于女性?
先来看一下2019年人口普查,也是第七次人口普查的男女性别比例数据,是目前最新的数据了。这里性别比,女性基数是100,例如:20 ~ 24这个区间,性别比是114.61,也就是说,114.6个男性对应100个女性。 可以看出,男女数量差异比较明显,但是在这个人口基数大国中,这个...

柯广 4周前 (02-03) 1311℃ 0评论 1喜欢

大数据

YARN调度器(Scheduler)详解

YARN调度器(Scheduler)详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可...

柯广 1个月前 (01-27) 1573℃ 0评论 3喜欢

大数据

Spark内核解析

Spark内核解析
Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。 一、Spark核心组件回顾 Driver Spark驱动器节点,用于执行...

柯广 2个月前 (01-14) 2097℃ 0评论 3喜欢

大数据

Hive进阶—抽样的各种玩法

Hive进阶—抽样的各种玩法
抽样 抽样在Hive 中也是比较常用的一种手段,主要用在下面的几个场景中 一些机器学习的场景中,数仓作为数据的提供方提供样本数据 数据的计算结果异常或者是指标异常,这个时候如果我们往往需要确认数据源的数据是否本身就有异常 SQL的性能有问题的时候我们也会使用抽样的方法区查看数...

柯广 2个月前 (01-13) 2142℃ 0评论 1喜欢

大数据

Hive窗口函数row number的用法

Hive窗口函数row number的用法
row_number 前面我们介绍窗口函数的时候说到了窗口函数的使用场景,我们也给它起了一个名字进行区分,通用窗口函数和特殊窗口函数,今天我们就来看一下排序相关的窗口函数,因为是窗口函数,并且我们说它是用来排序的,我们大概也能猜到它就是用来对窗口内的数据进行排序的 其实关于排序...

柯广 2个月前 (01-07) 2440℃ 0评论 1喜欢

大数据

Hive基于UDF进行文本分词

Hive基于UDF进行文本分词
Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive ...

柯广 2个月前 (12-30) 2744℃ 0评论 1喜欢

大数据

数据湖是谁?那数据仓库又算什么?

数据湖是谁?那数据仓库又算什么?
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。 数据湖初识 近两年,为什么都开始谈论起 Data Lake 这个”新名词”了? 先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注 Data Lake 的根本原因是用户需求发生了质变,过去的数据仓库模式以及...

柯广 2个月前 (12-25) 2925℃ 0评论 3喜欢

大数据

通过HiveServer2访问Hive

通过HiveServer2访问Hive
Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive ...

柯广 3个月前 (12-18) 3262℃ 0评论 0喜欢

大数据

Hive 分析函数lead、lag实例应用

Hive 分析函数lead、lag实例应用
Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。 1 LEAD...

柯广 3个月前 (12-17) 3253℃ 0评论 0喜欢

大数据

数据仓库之拉链表

数据仓库之拉链表
Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive ...

柯广 3个月前 (12-15) 3381℃ 0评论 0喜欢

大数据

数仓架构发展史

数仓架构发展史
发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能衡...

柯广 3个月前 (12-13) 2210℃ 0评论 0喜欢

大数据

数仓建模分层理论

数仓建模分层理论
分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结。 数仓的建模或者分层,其实都是为...

柯广 3个月前 (12-12) 1989℃ 0评论 0喜欢

大数据

Hive中的锁的用法和使用场景

Hive中的锁的用法和使用场景
前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直失败,下午重点注意到这个问题,才解决好。 Hive中的锁 在执行insert into或ins...

柯广 3个月前 (12-07) 1737℃ 0评论 0喜欢

Java

SpringBoot连接Hive实现自助取数

SpringBoot连接Hive实现自助取数
Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive ...

柯广 4个月前 (11-05) 5161℃ 0评论 5喜欢