等待下一个秋 - 分享Hadoop、Spark、Flink、Hive、数据仓库等主流大数据技术。

快速注册ChatGPT 最近，大家都被 ChatGPT刷屏了，非常火爆。但是呢，因为不可抗力原因，大部分人无法体验到，下面我分享一下自己的注册之旅，已成功提前条件首先能科学上网访问 Google 代理要求是韩国，日本，印度，新加坡，美国这些国家的地址都合适。对其他的我们还不太清楚，反正香港或中国的代理肯定不行。你得有一个国外手机号，用于接手验证码，国内的不行，如果没有可以找虚拟号码代理商。如果你没有国外手机号，推荐sms-activate.org 当然也有一些其他免费平台，你可以搜索，但是服务不稳定很浪费时…

2023年3月27日 1条评论 1249点热度 2人点赞等待下一个秋阅读全文

Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Table 编程和案例第06讲：Flink 集群安装部署和 HA 配置第07讲：Flink 常见核心概念分析第08讲：Flink 窗口、时间和水印第09讲：Flink 状态与容错第10讲：Flink Sid…

2023年2月15日 0条评论 4538点热度 1人点赞等待下一个秋阅读全文

ChatGPT，美国“开放人工智能研究中心”研发的聊天机器人程序，于2022年11月30日发布。是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。充当 Linux 终端我想让你充当 Linux 终端。我将输入命令，您将回复终端应显示的内容。我希望您只在一个唯一的代码块内回复终端输出，而不是其他任何内容。不要写解释。除非我指示您这样做，否则不要键入命令。当我需要用英语告诉你…

2023年2月7日 0条评论 2174点热度 1人点赞等待下一个秋阅读全文

MergeTree 系列的表（包括可复制表）可以使用分区。基于 MergeTree 表的物化视图也支持分区。分区是在一个表中通过指定的规则划分而成的逻辑数据集。可以按任意标准进行分区，如按月，按日或按事件类型。为了减少需要操作的数据，每个分区都是分开存储的。访问数据时，ClickHouse 尽量使用这些分区的最小子集，提高查询效率。分区是在建表时通过 PARTITION BY expr 子句指定的。分区键可以是表中列的任意表达式。例如，指定按月分区，表达式为 toYYYYMM(date_column…

2022年12月22日 0条评论 3008点热度 0人点赞等待下一个秋阅读全文

只有 MergeTree 系列里的表可支持副本： ReplicatedMergeTree ReplicatedSummingMergeTree ReplicatedReplacingMergeTree ReplicatedAggregatingMergeTree ReplicatedCollapsingMergeTree ReplicatedVersionedCollapsingMergeTree ReplicatedGraphiteMergeTree 副本是表级别的，不是整个服务器级的。所以，服务器里可以同时有复…

2022年12月22日 0条评论 2835点热度 0人点赞等待下一个秋阅读全文

该引擎和 MergeTree 的不同之处在于它会删除排序键值相同的重复项。数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行，因此你无法预先作出计划。有一些数据可能仍未被处理。尽管你可以调用 OPTIMIZE 语句发起计划外的合并，但请不要依靠它，因为 OPTIMIZE 语句会引发对数据的大量读写。因此，ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。建表 CREATE TABLE [IF NOT EXISTS] [db.]table…

2022年12月22日 0条评论 2802点热度 0人点赞等待下一个秋阅读全文

Clickhouse 中最强大的表引擎当属 MergeTree （合并树）引擎及该系列（*MergeTree）中的其他引擎。 MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入，数据片段在后台按照一定的规则进行合并。相比在插入时不断修改（重写）已存储的数据，这种策略会高效很多。主要特点: 存储的数据按主键排序。这使得您能够创建一个小型的稀疏索引来加快数据检索。如果指定了分区键的话，可以使用分区。在相同数据集和相同结果集的情况下 Click…

2022年12月22日 0条评论 2917点热度 0人点赞等待下一个秋阅读全文

什么是ClickHouse？ ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在传统的行式数据库系统中，数据按如下顺序存储： Row WatchID JavaEnable Title GoodEvent EventTime #0 89354350662 1 Investor Relations 1 2016/5/18 5:19 #1 90329509958 0 Contact us 1 2016/5/18 8:10 #2 89953706054 1 Mission 1 2016…

2022年12月14日 0条评论 3154点热度 0人点赞等待下一个秋阅读全文

第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较第04讲：Flink 常用的 DataSet 和 DataStream API 第05讲：Flink SQL & Table 编程和案例第06讲：Flink 集群安装部署和 HA 配置第07讲：Flink 常见核心概念分析第08讲：Flink 窗口、时间和水印第09讲：Flink 状态与容错第10讲：Flink Side OutPut 分…

2022年12月2日 0条评论 3385点热度 1人点赞等待下一个秋阅读全文

2022年11月30日 0条评论 3049点热度 0人点赞等待下一个秋阅读全文

123 4 5…41

ChatGPT 注册教程

第18讲：如何进行生产环境作业监控

ChatGPT可以做什么

ClickHouse 自定义分区键

ClickHouse数据副本引擎

ClickHouse ReplacingMergeTree引擎

ClickHouse MergeTree引擎

clickhouse简介

Flink SQL管理平台flink-streaming-platform-web安装搭建

Flink同步Kafka数据到ClickHouse分布式表