ScalaPie's Blog

以梦为马 诗酒趁年华

💖 不用翻墙就可以使用 ChatGPT Plus 啦!

自从ChatGPT和OpenAI API对国内进行封禁了以后,很多国内需要使用AI进行创作或者提效的人群使用AI的便利性就大打折扣了。这对于真心需要这类生产力工具的人群来说非常受挫。 现在国内想要使用类ChatGPT的软件无非就以下几种方式: 1. 自己翻墙注册并付费,这需要有翻墙软件、可以进行境外支付的钱包或者卡,但是随时面临着被OpenAI封禁的可能性; 2. 从中间商那购买二手号,动辄每个月

第4章 数据载入(Part 4)

————使用Apache SeaTunnel将数据写入clickhouse

接续前文 作者注:原Waterdrop现已更名/进化为Apache SeaTunnel,但数据同步逻辑类似,本文供参考。 4.3.3 实例:使用Waterdrop将数据写入ClickHouse Waterdrop是一款构建在Spark和Flink基础之上的数据处理工具。它支持从多种数据源中读取数据,经过计算处理后,写入多种数据持久化存储容器中。 下面通过1个实际示例讲解如何通过Waterdrop将

第4章 数据载入(Part 3)

————使用Flink将数据写入clickhouse

接续前文 4.3.2 实例:使用Flink将数据实时写入ClickHouse Flink是一款开源的分布式实时计算框架,由于其低延迟高吞吐、计算有状态、丰富的Exactly-once语义等特性,Flink已经成为了流式计算领域事实上的标准。如果读者对于Flink较陌生,可以直接略过,补充相关知识后再来阅读此节,本节内容不影响后续继续学习。 使用Flink将数据实时写入ClickHouse比使用Sp

第4章 数据载入(Part 2)

————使用Spark将数据写入clickhouse

接续前文 4.3 使用计算引擎/数据同步工具将数据写入ClickHouse 对于数量较小的数据(几十MB到几百MB)而言,使用CLI客户端将数据文件导入ClickHouse尚能应付,但是对于大数据(几十GB甚至数百TB)而言,CLI客户端就相形见绌了。 另外,ClickHouse虽然支持非常多数据格式,但是其对于列式数据和复杂类型数据的导入支持有限。当数据来自于不同的源头,而且经常需要预先做一些转

第4章 数据载入(Part 1)

————使用原生工具将数据写入clickhouse

第4章 数据载入 在上一章中讲解了ClickHouse集群的搭建以及如何创建数据库数据表,本章接着学习如何将数据写入ClickHouse的数据表中。 在将数据写入ClickHouse数据表之前,一些很自然的疑问便是:什么样的数据才能被写入ClickHouse呢?ClickHouse支持哪些数据格式的输入和输出呢?针对不同格式的数据,如何将其导入到ClickHouse中呢?本章将详细介绍这些问题。

第3章 ClickHouse集群部署及库表创建(下)

————clickhouse数据库和数据表创建

接续前文 3.3 创建数据库数据表 在任何数据库系统中,数据表(在不同系统中名称可能不同)均是最核心的数据集合单位,其核心地位主要体现在以下两个方面: 数据表是对企业业务的数据抽象,表设计是业务逻辑的体现; 数据表是用户与数据库交互的唯一接口对象(获取数据只能从数据表中查询)。 按照建表时是否需要指定或依赖其它的数据源,可以将ClickHouse中的数据表分为以下两大类: 普通数据表。普通数据表自

第3章 ClickHouse集群部署及库表创建(中)

————ClickHouse on Zookeeper集群部署

接续前文 3.2.2 ClickHouse on Zookeeper集群部署 ClickHouse Standalone集群虽然部署简单,且完全不依赖于外部第三方框架,但是其有诸多弊端。将ClickHouse集群与Zookeeper结合起来,可以使集群更加健壮,使用起来也更方便。 ClickHouse on Zookeeper集群在ClickHouse Standalone集群的基础上集成Zook

第3章 ClickHouse集群部署及库表创建(上)

————clickHouse standalone集群部署

第3章 ClickHouse集群部署及库表创建 在上一章中,我们掌握了在各种系统环境中安装单机版ClickHouse的知识,但是其存在单节点的问题。如果在生产环境使用,我们需要保证服务的高可靠性。 另外,在大数据场景下,一个服务节点能够承载的数据存储量和计算能力是极其有限的,因此提供分布式服务能力是必备的。本章我们会介绍ClickHouse的分布式模型架构及实现。 3.1 认识分布式数据库架构 在

第2章 ClickHouse单机版安装部署(下)

————在macos上安装clickhouse

接续前文 2.4 MacOS平台安装ClickHouse MacOS系统安装部署ClickHouse相对而言较为麻烦,需要自己从源码进行编译,且Mac电脑的安装环境不同过程中可能会出现不同的错误。读者请尽量使用10.15.x版本的Mac系统来安装,按照下面的步骤一步一步来来顺利完成安装过程。 2.4.1 安装环境验证 本文中Mac电脑安装环境如下: 系统:macOS Catalina 版本10.1

第2章 ClickHouse单机版安装部署(上)

————在Linux各个发行版本上安装clickhouse

第2章 ClickHouse单机版安装部署 2.1 安装环境要求 2.1.1 硬件要求 处理器:以x86 64架构的CPU为最佳,且需要支持SSE4.2指令集(如果你看到这里不知道什么是SSE4.2指令集,请回上一章1.2.3节重温下该概念)。如果是非x86 64架构或者不支持SSE4.2指令集,需要自己单独重新编译源码。 运行内存:RAM要求在4GB以上,生产环境使用以具体情况进行评估(生产环境