刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。 数据湖初识 近两年,为什么都开始谈论起 Data Lake 这个”新名词”了? 先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注 Data Lake 的根本原因是用户需求发生了质变,过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。 数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。 那么到底是什么样的需求和挑战驱动了技术的变革,从而导…

2020-12-25 0条评论 5145点热度 0人点赞 柯广 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 动态分区调整 动态分区属性:设置为true表示开启动态分区功能(默认为false)hive.exec.dynamic.partit…

2020-12-23 1条评论 5475点热度 1人点赞 柯广 阅读全文

书中自有黄金屋,书中自有颜如玉。书是人类进步的阶梯。古今中外的先贤们已经给出了明确的答案,多读书对一个人的改变和产生的影响无疑是显著的。 1. 思想境界 早有人说过“纸上得来终觉浅,绝知此事要躬行”,光懂了书本上的知识,你只是知道,而非做到。就好像老师说考试很简单,就是这两套卷子里的题。你会想,嗯,我知道了很简单嘛就这两套卷子。但你却没有去做,你的思想只停留在表面的知道。这也就如有人提问,我看了1000本书,为什么感觉没有什么用? 2. 精神面貌 如你所见,读书见事,具有美颜塑形的良好功效。博闻强识让人变得自信,摸…

2020-12-20 0条评论 5402点热度 0人点赞 柯广 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 除了使用础的数据类型string等,Hive中的列支持使用struct, map, array集合数据类型。 数据类型 描述 语法…

2020-12-20 0条评论 5211点热度 0人点赞 柯广 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 先解释一下几个名词: metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书…

2020-12-18 0条评论 5141点热度 0人点赞 柯广 阅读全文

Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。 1 LEAD 与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值 参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)  场景 用户Peter在…

2020-12-17 0条评论 4356点热度 0人点赞 柯广 阅读全文

Hive系列文章 Hive表的基本操作 Hive中的集合数据类型 Hive动态分区详解 hive中orc格式表的数据导入 Java通过jdbc连接hive 通过HiveServer2访问Hive SpringBoot连接Hive实现自助取数 hive关联hbase表 Hive udf 使用方法 Hive基于UDF进行文本分词 Hive窗口函数row number的用法 数据仓库之拉链表 场景 需要查看历史某一时间节点的状态,同时考虑到存储空间;或则适用于数据会发生变化,但是大部分是不变的 在数据仓库的数据模型设计过…

2020-12-15 0条评论 4332点热度 0人点赞 柯广 阅读全文

在开设传统培训班时,正常的流程是先预订酒店,提前担负几万、十几万的会务开支。之后再在开课之前,招募到足够多的学员,以此保证收支平衡。而我筹备的这次培训完全不一样,因为我不必提前承担不可预知的会务成本。我通过发展种子学员的方式,用最轻松、最简单的方法达到了我预期的效果。 组织一场线下的培训班。在学员招募的过程中,我也是采取了优先发展种子学员的思路。最终,我单枪匹马一个人通过这个培训班,收到了33万的现金。那么,我是怎么组织起这个培训班的呢? 在培训班宣传文案当中,我提出了这样一个合作主张:前10名种子学员,将能够享受…

2020-12-13 1条评论 5814点热度 0人点赞 柯广 阅读全文

发展史 时代的变迁,生死的轮回,历史长河滔滔,没有什么是永恒的,只有变化才是不变的,技术亦是如此,当你选择互联网的那一刻,你就相当于乘坐了一个滚滚向前的时代列车,开往未知的方向,不论什么样的技术架构只有放在当前的时代背景下,才是有意义的,人生亦是如此。 时间就是一把尺子,它能衡量奋斗者前进的进程;时间就是一架天平,它能衡量奋斗者成果的重量;时间就是一架穿梭机,它能带我们遨游历史长河,今天我们看一下数仓架构的发展,来感受一下历史的变迁,回头看一下那些曾经的遗迹。准备好了吗 let's go!,在此之前我们先看一下,数…

2020-12-13 0条评论 3091点热度 0人点赞 柯广 阅读全文

超链接<a>里面的属性nofollow就是告诉搜索引擎:不要跟踪我。也就是说不让搜索蜘蛛继续追踪,同样,也不传递丝毫的权重。 通俗说,就是一个人推荐你,说你很优秀,跟着偷偷来一句:别当真!所以,友链里面别人给你加了noflollow属于偷奸耍滑的,别和他做友链了,果断删除吧! 带有nofollow的链接是不传递权重的,这个是所有搜索引擎都公认的,如果是友情链接代了这个,那就没有意义了。果断去掉 他会阻止蜘蛛进行跟踪,同时也阻止了权重的传递。查询的方法也很简单,我们只要直接打开对方站点页面的源文件,查看其…

2020-12-12 0条评论 5712点热度 0人点赞 柯广 阅读全文

分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结。 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到国家的省市区的划分,无一例外的都是为了更好的组织管理。 所以数…

2020-12-12 0条评论 2870点热度 0人点赞 柯广 阅读全文

晚上健身回来坐那发了一会呆,突然想到前段时间的:”年轻人不讲武德“、”耗子尾汁“、”我大E了“,我想了好久都想不起来那个网红的名字了,直到刚才我特意在网上搜了下才想起来,人民日报客户端痛批马保国闹剧。 我就在想,为什么我竟然想不起来这个前段时间亿级IP的流量王,因为他的个人IP、个人品牌,不是持久的。 那么怎样才能算一个持久的个人IP呢,首先这个人必须是能持续性地进行对个人品牌产生影响的活动的,这个活动最好是正向的。主人公(这里暂且叫他大E)在被人民日报痛批后也是选择了隐居,不在进行公开的活动了。 大E如果真的能开…

2020-12-10 0条评论 5770点热度 0人点赞 柯广 阅读全文

建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到国家的省市区的划分,无一例外的都是为了更好的组织管理 访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:改善数据统计口径的不一致性,减少数据计算…

2020-12-08 0条评论 3482点热度 0人点赞 柯广 阅读全文

前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直失败,下午重点注意到这个问题,才解决好。 Hive中的锁 在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态。 查看Hive的中死锁,可以使用show lock…

2020-12-07 0条评论 2609点热度 0人点赞 柯广 阅读全文

下午去滨江走了走,人很多,也很热闹,我心里很平静。 早晨跟好朋友语音聊了聊,我还没起床呢,他已经在键盘敲的飞起,肯定是在搞事情嘛!他说最近感觉时间不够用,很明显,他现在状态很好,一心在做事情,未来可期。在去年有一段8个月的持续期,我当时也是这种感觉,感觉时间不够用。我记得是,周末早晨8点起床,然后随便吃点东西就坐在电脑前写作,除了午饭,一口气写到晚上,可能一篇文章才写完,然后发到公众号和网上去。当时我的感觉也是一天24小时真的不够用,哪怕再多两个小时就好了。反观我今年以来,明显是懈怠了很多,也没有真的拼命去做过事。…

2020-12-06 0条评论 6166点热度 0人点赞 柯广 阅读全文
13456718