数据引擎（仓库）架构技术方案

1. 目的

为了更好实现 GodView 项目的应用层，同时建设更符合业界通用技术的 IDC 和数据引擎系统，服务于TB规模的 RDB 集群在线实时查询和 PB 规模的 DW 离线处理作业。

2. 基础架构体系

1. 基本模型

在线 -> 入仓 -> DW 数据处理 ->应用层数仓表 -> RDB

在线 -> 离线 -> 在线

2. 在线查询

MySQL集群

3. 在线流处理

Flink

4. 离线数仓

对象存储 + 抽象文件系统 + Hive / Spark

3. 数据仓库（平台）设计
3.1 DW数据分层，由下到上为 DWD,DWB,DWS
DWD：data warehouse detail 细节数据层，有的也称为 ODS层，是业务层与数据仓库的隔离层
DWB：data warehouse base 基础数据层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。
DWS：data warehouse service 服务数据层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据，一般是宽表。
1、数据加载层：ETL（Extract-Transform-Load）
2、数据运营层：ODS（Operational Data Store）
3、数据仓库层：DW（Data Warehouse）
数据明细层：DWD（Data Warehouse Detail）
数据中间层：DWM（Data WareHouse Middle）
数据服务层：DWS（Data WareHouse Servce）
3.2. 数据应用层：APP（Application）
3.3. 维表层：（Dimension）

现有架构改造：

其中与目前 萌萌哒弱智 的纯 MySQL 集群架构不同，所有非必要的关系 JOIN 查找不应该由在线集群承载，而应该下推到 DW 由离线业务定期执行宽表任务。再由宽表执行血缘到MySQL完成Hive to RDB。

4. IDC 三期建设

三期 100TB 热存系统（固态阵列）
四期 1PB 综合 IDC

工程造价
20240801 2TB固态均价（450RMB），每10TB高达2300元，每20TB高达4000元
2024年以来固态价格回调，造价成本较2023年一期工程提高60%，处于历史高位。
三期 IDC 建设推迟到2024年12月（等待价格回归400左右）。
内存价格高位水平，64GB内存价格居高不下。
14TB以上机械与历史持平。

离线数仓
增加专门的裸金属中央架构的超级节点服务器组（双存储节点），冷热混转，由于价格高位，暂时推迟。

5. 三期难题

问题1：是否有必要增加专门的数据湖层？
问题2：过度复杂的中台体系，将使工程量成倍增长，是否有必要完全按标准架构设计？
问题3：混合云架构运维成本的成倍增长，大量二手设备加入带来更不稳定的运维设计，如何更有效解决？
问题4：个人搭建PB级小型混合云 IDC 是否能在10万以内实现？并最终实现 TB级及时在线知识图谱和搜索引擎检索？
问题5：现有微服务架构，如何实现吞吐密集型的高可用？如每次查询，返回数据量高达10MB左右，处理数据量高达100MB以上。
问题6：OpenAI等大模型，如何实现这类吞吐密集型高可用任务？

Portal Gun

Menus

Category

Recent posts

Tags

Connect

数据架构技术方案（Hydra/Cthulhu）

数据引擎（仓库）架构技术方案

1. 目的

2. 基础架构体系

4. IDC 三期建设

5. 三期难题

See more.