技术杂谈 - 等待下一个秋

ChatGPT，美国“开放人工智能研究中心”研发的聊天机器人程序，于2022年11月30日发布。是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。充当 Linux 终端我想让你充当 Linux 终端。我将输入命令，您将回复终端应显示的内容。我希望您只在一个唯一的代码块内回复终端输出，而不是其他任何内容。不要写解释。除非我指示您这样做，否则不要键入命令。当我需要用英语告诉你…

2023年2月7日 0条评论 2174点热度 1人点赞等待下一个秋阅读全文

进入下载页：http://edelivery.oracle.com/osdc/faces/Home.jspx，需要注册账号并且登录，除了邮箱需要填对，因为注册要发链接验证的，其它的一堆信息随便填，我这里已经注册登录好了。比如，我这里要下载 Oracle GoldenGate for Big Data 12.3.1.1.1 on Linux x86-64 这个版本首先，在搜索框里面搜索：点击对应搜索结果：然后，点击右上角的View Items，就会跳出一个小窗，点击Continue。然后，选择系统后，点击C…

2022年11月29日 0条评论 3130点热度 0人点赞等待下一个秋阅读全文

本文首发我的个人博客：paddleocr安装教程快速开始 1. 安装Python环境 wget https://mirrors.huaweicloud.com/python/3.8.5/Python-3.8.5.tgz 下载后，解压，编译，安装，即可。 2. 安装paddle-gpu 简单文档：https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.5/doc/doc_ch/quickstart.md 官方文档：https://www.paddlepaddle…

2022年9月20日 0条评论 5237点热度 0人点赞等待下一个秋阅读全文

并不是索引越多越好，索引是一种以空间换取时间的方式，所以建立索引是要消耗一定的空间，况且在索引的维护上也会消耗资源。这里有张用户浏览商品表，建表语句： CREATE TABLE `product_view` ( `id` int(11) NOT NULL AUTO_INCREMENT, `user_id` int(11) NOT NULL, `product_id` int(11) NOT NULL, `server_id` int(11) NOT NULL, `duration` int(11) NOT NUL…

2022年6月7日 0条评论 2824点热度 0人点赞等待下一个秋阅读全文

步骤很简单，既然要基于yarn，前提是hadoop已经安装好了，我们选择hadoop集群的一个节点，安装一个flink客户端即可。我们平时提交任务，包括mr、spark任务等，也会去安装一个spark客户端。选择一个节点，这个节点通常会用它提交任务。下载flink wget http://archive.apache.org/dist/flink/flink-1.13.5/flink-1.13.5-bin-scala_2.11.tgz 解压 tar -zxvf flink-1.13.5-bin-scala_2.…

2022年1月13日 0条评论 1219点热度 0人点赞等待下一个秋阅读全文

1 为什么需要二级索引 HBase的一级索引就是rowkey，我们仅仅能通过rowkey进行检索。假设我们相对Hbase里面列族的列列进行一些组合查询，就只能全表扫描了。表如果较大的话，代价是不可接受的，所以要提出二级索引的方案。二级索引的思想：简单理解就是，根据列族的列的值，查出rowkey，再按照rowkey就能很快从hbase查询出数据，我们需要构建出根据列族的列的值，很快查出rowkey的方案。 2 常见的二级索引方案 MapReduce方案； Coprocessor方案； elasticsearch+h…

2021年12月28日 0条评论 1400点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复资料，领取1024G资料。 [TOC] 时间滑动计算今天遇到一个需求大致是这样的，我们有一个业务涉及到用户打卡，用户可以一天多次打卡，我们希望计算出7天内打卡8次以上，且打卡时间分布在4天以上的时间，当然这只是个例子，我们具体解释一下这个需求用户一天可以打卡多次，所以要求打卡必须分布在4天以上； 7天不是一个自然周，而是某一天和接下来的6天，也就是说时间是是滑动的，窗口大小是7步长是1，说白了就是窗口计算；其实说到这里你就想到了窗口函数，虽然这是一个窗口；但是hive却没有相应的…

2021年12月22日 0条评论 4664点热度 0人点赞等待下一个秋阅读全文

其实这篇文章的起源是，我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo，只能在本地读取，我需要将ip库上传到HDFS分布式存储，每个计算节点再从HDFS下载到本地。那么到底能不能直接从HDFS读取呢？跟我强哥讲了这件事后，不服输的他把肝儿都熬黑了，终于给出了解决方案。关于外部依赖文件找不到的问题其实我在上一篇的总结中也说过了你需要确定的上传的db 文件在那里，也就是你在hive 中调用add file之后会出现添加后的文件路径或者使用list 命令来看一下今天我们…

2021年12月14日 0条评论 3404点热度 0人点赞等待下一个秋阅读全文

关注公众号：大数据技术派，回复"资料"，领取1024G资料。这一课时我们将讲解 Flink “精确一次”的语义实现原理，同时这也是面试的必考点。 Flink 的“精确一次”处理语义是，Flink 提供了一个强大的语义保证，也就是说在任何情况下都能保证数据对应用产生的效果只有一次，不会多也不会少。那么 Flink 是如何实现“端到端的精确一次处理”语义的呢？背景通常情况下，流式计算系统都会为用户提供指定数据处理的可靠模式功能，用来表明在实际生产运行中会对数据处理做哪些保障。一般来说，流处理…

2021年12月12日 0条评论 1517点热度 0人点赞等待下一个秋阅读全文

Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据 cat json.data {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"…

2021年11月30日 0条评论 4687点热度 0人点赞等待下一个秋阅读全文

12 3 4 5…15

ChatGPT可以做什么

oracle ogg下载教程

paddleocr安装教程快速开始

mysql索引不生效

Flink on Yarn安装

Hbase构建二级索引的一些解决方案

Hive实战—时间滑动窗口计算

Hive实战UDF 外部依赖文件找不到的问题

Flink Exactly-once 实现原理解析

Hive处理Json数据