十行代码构建基于 CDC 的实时更新物化视图

fjmyhfvclm2025-02-27 56

什么是实时更新的物化视图

物化视图, Materialized View, 在数据管理系统中指将视图的查询和计算的结果保存为一个物理表，这样每次访问视图时，无需重新执行查询，从而提高了查询效率。物化视图针对一些需要做大量频繁的聚合计算，以及复杂关联的场景下，是一个非常行之有效的提高性能降低资源使用的数据架构模式。

（图片来源： https://blog.the-pans.com/caching-partially-materialized-views-consistently/）

取决于视图的更新模式，可以分为全量更新的和实时（增量）更新的两种。

️全量更新

全量更新策略在每次更新时都会清除物化视图中现有的所有数据，并将最新的查询结果集重新插入。这个过程可以理解为执行了TRUNCATE TABLE和INSERT INTO SELECT的组合操作。全量更新虽然简单直接，但在大数据量或高频更新的场景下，其效率和资源消耗可能成为一个问题。

️实时（增量）更新

增量更新策略则更为高效，它仅针对自上次更新以来发生变化的数据部分计算物化视图的差异，并将这些差异应用到物化视图中。增量更新能以更少的资源消耗，提供一个更为实时的数据体验。

实时更新物化视图的适用场景

我们周围有很多业务场景需要我们的视图提供当前的状态，例如：

️1. 金融交易系统中的余额更新

在金融系统中，用户的账户余额会频繁变动（如存款、取款、转账、投资等操作）。为了在用户每次交易后，能够实时查看其账户总的余额，通常会使用实时更新的物化视图来确保用户在执行交易后，能够立刻查询到最新的账户状态。

️场景需求：

交易完成后，用户能够实时看到余额变化。
数据一致性要求高，不能有延迟。

️示例：

银行或股票交易平台在每次交易提交时，更新用户的账户余额物化视图。

️2. 库存管理系统中的实时库存

在电商平台或仓储系统中，库存的实时管理非常关键。每次销售、退货、补货都需要及时反映到系统中，以避免超卖或库存不足的问题。特别是在使用多平台进行销售时，使用多源汇聚及实时更新的物化视图可以确保在每次库存变更后，系统展示给用户的库存信息是最新的。

️场景需求：

每次销售或退货时，库存信息需要立即更新。
防止超卖，确保用户查询时显示的是准确的库存数据。

️示例：

电商平台在用户下单后，实时更新库存物化视图，确保前台用户和后台管理系统中的库存信息同步。

3. 实时监控和告警系统

在一些生产系统或 IT 监控平台中，监控指标（如 CPU 利用率、内存占用、网络流量等）会频繁变化。此类系统需要根据实时数据判断是否触发告警。因此，可以通过实时更新技术来随时更新指标的物化视图，以便立即发现异常情况并触发告警。

️场景需求：

需要对系统各项关键指标进行实时监控。
任何异常都需要在最短时间内被发现，并触发相应的告警机制。

️示例：

运维监控平台，每次收集到新的监控数据时，刷新监控指标的物化视图，确保告警规则能够基于最新数据进行判断。

️4. 客户关系管理（CRM）系统中的实时客户状态

在 CRM 系统中，客户的行为数据（如打电话、发邮件、订单记录等）经常发生变动。业务人员希望能够实时看到客户的最新互动记录、订单状态等，以便根据最新情况及时跟进客户。因此，在每次客户数据更新时刷新物化视图，使得业务人员在查看客户详情时能够看到最新信息。

️场景需求：

业务人员在跟进客户时，必须基于最新的互动记录进行操作。
任何客户状态变更都要实时反映，以便做出及时决策。

️示例：

每次客户下订单、发送邮件或进行其他行为时，CRM 系统会立即刷新相关的客户状态物化视图。

️5. 实时推荐系统中的用户行为数据更新

在电商或内容平台的推荐系统中，用户的行为（如点击、浏览、购买等）会实时影响推荐的结果。为了保证推荐结果的实时性，系统可以在每次用户行为数据变更后，使用实时更新物的化视图，从而使推荐系统能根据最新的用户行为数据生成推荐内容。

️场景需求：

用户行为频繁，推荐结果需要实时调整。
数据必须实时反映用户的最新兴趣和偏好。

️示例：

当用户点击商品或浏览内容时，刷新用户行为数据的物化视图，以便推荐系统实时调整推荐结果。

实时更新物化视图的实现方式

实时更新物化视图的实现方式，可以分为两大类别：

利用数据库提供的物化视图实时更新能力，如Oracle, PosgreSQL 等均提供相应的能力
使用支持CDC数据复制和流式计算的实时数据平台，如 Kafka, TapData 等

我们先来看一下第一类，不依赖于第三方组件，直接使用数据库的能力。

️基于数据库自身能力的物化视图实时更新模式

（图片来源：https://oracle-base.com/articles/misc/materialized-views）

️1. Oracle Database

Oracle 通过物化视图（Materialized View）以及物化视图日志（Materialized View Log）来支持基于事务提交的实时刷新。

️物化视图日志（Materialized View Log）：Oracle 需要在源表上建立一个日志表，记录所有的插入、更新和删除操作。物化视图会根据日志来实时刷新数据。
在创建物化视图时，可以使用 REFRESH FAST ON COMMIT 选项，这样物化视图会在事务提交时根据日志数据进行增量刷新。如：
CREATE MATERIALIZED VIEW mv_example
REFRESH FAST ON COMMIT AS SELECT * FROM source_table;

️2. PostgreSQL

PostgreSQL 可以通过触发器（Trigger）来模拟这一功能。在事务提交时，触发器可以用来更新物化视图。

️触发器：可以为源表创建 AFTER INSERT、AFTER UPDATE 或 AFTER DELETE 的触发器，确保当数据表发生变化时，自动执行刷新物化视图的操作。

CREATE OR REPLACE FUNCTION refresh_materialized_view()

RETURNS TRIGGER AS

BEGIN

REFRESH MATERIALIZED VIEW mv_example;RETURN NEW;

END;

LANGUAGE plpgsql;

️定时器（pg_cron）：对于较为频繁的更新，也可以通过定时任务实现定期刷新。
CREATE TRIGGER refresh_mv_trigger
AFTER INSERT OR UPDATE OR DELETEON source_table
FOR EACH STATEMENT
EXECUTE FUNCTION refresh_materialized_view();

️3. MySQL

MySQL 并不原生支持物化视图的概念，但可以通过 ️触发器 和 ️表复制 来模拟物化视图功能，配合触发器实现类似实时更新的效果。

️触发器：在源表上创建触发器，每当发生数据变更时更新对应的派生表，模拟物化视图刷新。
️复制表：创建一个冗余表，手动更新该表以反映源表中的变化。通过触发器自动进行更新。

CREATE TRIGGER refresh_mv_trigger

AFTER INSERT ON source_table FOR EACH ROW

BEGIN

-- 手动更新物化视图逻辑

END;

️4. Snowflake

Snowflake 提供了一种称为 ️Materialized Views 的特性，可以为大规模数据集实现增量刷新。虽然 Snowflake 没有提供 ️On Commit Refresh 的功能，但它可以通过 ️自动刷新 实现接近实时的数据更新。

️Materialized View：Snowflake 会自动检测源表的更改，并在需要时对物化视图进行增量刷新。刷新过程异步进行，因此在事务提交后会稍有延迟。

️示例：

CREATE MATERIALIZED VIEW mv_example

AS SELECT column1, COUNT(*)

FROM source_table;

️5. ClickHouse

ClickHouse 提供了一种基于 ️物化视图（Materialized Views） 的机制，能够实现对实时数据的近实时处理。通过依赖表自动触发物化视图的更新。

️物化视图（Materialized Views）：ClickHouse 允许将数据表的实时更新映射到物化视图，使用 POPULATE 选项将源表的数据推送到物化视图。
️分布式流处理：ClickHouse 通过流处理机制对数据进行处理，适合对大量实时数据进行快速分析。

CREATE MATERIALIZED VIEW mv_example

TO target_table

AS SELECT * FROM source_table;

️6. BigQuery

Google BigQuery 支持 ️物化视图（Materialized View），这些视图并不会在每次数据更改时自动更新，但支持周期性刷新。对于部分业务需求，可以通过触发刷新机制，在数据提交时强制刷新物化视图，达到类似实时更新的效果。

️周期性刷新：BigQuery 支持每 30 分钟自动刷新物化视图，此外还可以通过编程接口（如 Google Cloud Functions）手动触发刷新。

CREATE MATERIALIZED VIEW mv_example

AS SELECT column1, COUNT(*)

FROM source_table;

我们可以看到，除了Oracle 数据库提供了原生的基于事务级别实时更新视图能力之外，其他的都是通过触发器，或者定时自动刷新的方式来模拟。对实时要求比较高的场景，支持上并不理想。

另外，使用数据库自身能力也意味着你只能在数据库内部创建物化视图，对多源，跨库，读写分离，以及不希望给原库增加压力的场景，都无法使用这种模式。在这些时侯，我们需要使用一个支持CDC数据复制和流式计算的实时数据平台来实现。

️基于CDC数据复制和流式计算来实时更新物化视图

这种方案通常需要几个模块一起配合来完成,如：

CDC 实时复制工具，这个是用来对源库的事务日志进行监听，解析，并第一时间交给计算框架去处理。开源的一般会用 Debezium, 商用的较常见的是Oracle Golden Gate等
流式计算能力，能够对CDC 传输过来的Insert / Update / Delete 同步到目标视图里面，并且能够对多表的事件进行关联聚合等

我们以一个订单宽表为例子来说明这个实现方式。我们有一个MySQL的电商平台，我们希望提供一个包含完整信息的订单API（如客户信息，商品信息，物流信息等）提供给客户的手机端来查询。由于MySQL 的并发查询和关联查询性能有限，我们选择了在能够提供相对较高查询性能，并支持 JSON 结构（API 模型设计）的 MongoDB 里构建一个物化视图的方式来支持这个 API。

换句话来说，假设这个是MySQL 数据库的表结构：

我们希望有这样的一个视图，可以直接用来给到客户端通过order_id 或者 customer_id 来查询客户订单。这个API JSON 的结构可能是下面这样，一个模型里包含了订单，客户地址，付款信息和订单明细。

为了达到这个效果，我们需要将订单表（ecom_orders）与订单明细表（ecom_order_items）, 客户信息表（ecomm_customer，形成一个宽表（OrderView），并使用 MySQL Debezium Connector + Kafka Connect + kakfa broker + Kafka Streams 实现持续刷新，这里将会介绍一个完整的步骤来达成这一目标。

️方案步骤

️Prerequisites

Docker (for Kafka, Zookeeper, Schema registry and Kafka Connect)
All docker images can be downloaded from https://hub.docker.com/

️Step 1: Set up Kafka broker, Zookeeper, Schema registry, and Kafka Connect

️Step 2 Install Debezuim Mysql Connector in Kakfa connect

Install the Debezium MySQL connector using️ confluent-hub-client inside the Kafka Connect container:

️Step 3 Deploy a Debezium MySQL Connector

Prepare a JSON configuration file for the MySQL source connector. Below is an example configuration (debezium-mysql.json):

️Deploy the connector by posting this configuration to the Kafka Connect REST API:

️Verify the connector status to ensure it’s running:

If the connector status shows as RUNNING, your MySQL data is now streaming into the Kafka broker in real-time. Each change (insert/update/delete) made to the MySQL database will be captured by debezuim MySQL connector and sent to the Kafka broker.

At this stage, you have successfully set up real-time data streaming from MySQL to Kafka broker.

Verify kakfa topics in kakfa broker

️Step 4 Real-Time Data Streaming from Kafka broker to MongoDB

Now that the data is streaming in real-time from MySQL to Kafka, you can consume this data and map it to MongoDB using a custom node.JS Script. This application uses the kafkajs streaming library to consume messages from Kafka topics and the mongodb library to store this data in MongoDB.

In this example, we have an eCommerce database with orders, order items and customer details. We consume this data from Kafka topics and enrich order with related customer information and order items before writing it to MongoDB.

️小结

使用Debezium MySQL连接器与Kafka Connect相结合，可以方便地将变更数据捕获（CDC）传输到Kafka代理。通过Node.js中的Kafka Streams库，可以执行实时数据流处理和转换。此配置会从MySQL数据库中捕获更新，实时处理这些更新，并在将数据结果存储到MongoDB之前对其进行转换和映射。

Tap Flow，支持CDC的物化视图构建利器

什么是Tap Flow

Tap Flow 是一个TapData 实时数据平台提供的一个流式数据采集和处理的框架。开发者可以使用Tap Flow来实现实时数据复制，实时数据加工处理，多表流式合并，构建实时更新的物化视图等技术场景。

使用上面同样的例子，我们来看看用Tap Flow 会是怎样的一个体验。

使用 Tap Flow 构建一个订单宽表

️主要流程：

安装Tap Flow 的Python SDK 和CLI
配置TapData Cluster 连接信息
使用 Tap Flow 的命令和API，构建 Flow，并设置目标为一个物化视图
运行Flow

️详细步骤：

️Step 1: 安装 Tap Shell，一个Tap Flow 的Python SDK 和交互式命令行界面

️Step 2: Start and Configure Tap Shell

️Step 3: Start Building Materialized View

Step 3.1: Set Up Connection with Source databases.

️ Step 3.2: Create data pipeline to build wide order data model

️ Step 3.3. Start Data pipeline

Step 3.4. View the flow stats

️ Step 3.5. View Wide Order Data model in MongoDB

️验证物化视图的实时更新效果

运行脚本，观察mysql 库的订单数据变动
在源库新增订单
️Use ECommerceData;
️select ️count(*) ️from ecom_orders eo;

执行下述脚本在 ecom_orders table 里新增记录：

️select ️count(*) ️from ecom_orders eo;

客户城市更新: 更新客户的城市名称，并在城市名称前添加“CITY_”
Please execute the following script to update and add prefix in city_name in ecom_customer table:

Run the query below to observe updates in ecom_customers table

订单明细的变化
Price value is 21.9 in order_items table where order_id = '00048cc3ae777c65dbb7d2a0634bc1ea'

Update price and add 40 more in order_details table where price is less than 200

Run below select query to see updated prices scripts works

观察视图Order View 针对上面的变化 Observe the view that is updating
Run this query to check the total number of orders in MongoDB, which should now be 99,451, as we added 10 new records. Before adding the records through the script, the total was 99,441.

Verify the updates in the customer_info document within the MongoDB wide collection.

Verify the updates in the order_items array within the MongoDB wide collection.

小结

TapFlow是一个编程框架，目前还处于 Preview 状态。它允许您执行实时数据复制、数据处理以及创建物化视图等操作。它由一组API、Python SDK以及Tap CLI（一个命令行实用程序）组成。和常见的实时数据管道或者集成方案（如Kafka ETL）相比，使用Tap Flow 的优势是：

内部直接集成了CDC，不再需要额外的一个模块
基于Python / JS 脚本语言，快速实现各种数据处理需求，12行代码 vs Kafka 的接近200行
支持大部分主流国产数据库!

TapFlow 现已开放内测版本，获取方式指路>>>原文文末

转载请注明原文地址:http://demo.aspcms.cn/tech/1660637.html