数据引擎(仓库)架构技术方案

1. 目的

为了更好实现 GodView 项目的应用层,同时建设更符合业界通用技术的 IDC 和数据引擎系统,服务于TB规模的 RDB 集群在线实时查询和 PB 规模的 DW 离线处理作业。

2. 基础架构体系

1. 基本模型

在线 -> 入仓 -> DW 数据处理 ->应用层数仓表 -> RDB

在线 -> 离线 -> 在线

2. 在线查询

MySQL集群

3. 在线流处理

Flink

4. 离线数仓

对象存储 + 抽象文件系统 + Hive / Spark

3. 数据仓库(平台)设计
3.1 DW数据分层,由下到上为 DWD,DWB,DWS
DWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层
DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWS:data warehouse service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。
1、数据加载层:ETL(Extract-Transform-Load)
2、数据运营层:ODS(Operational Data Store)
3、数据仓库层:DW(Data Warehouse)
数据明细层:DWD(Data Warehouse Detail)
数据中间层:DWM(Data WareHouse Middle)
数据服务层:DWS(Data WareHouse Servce)
3.2. 数据应用层:APP(Application)
3.3. 维表层:(Dimension)

现有架构改造:

其中与目前 萌萌哒弱智 的纯 MySQL 集群架构不同,所有非必要的关系 JOIN 查找不应该由在线集群承载,而应该下推到 DW 由离线业务定期执行宽表任务。再由宽表执行血缘到MySQL完成Hive to RDB。

4. IDC 三期建设

三期 100TB 热存系统 (固态阵列)
四期 1PB 综合 IDC

工程造价
20240801 2TB固态均价(450RMB),每10TB高达2300元,每20TB高达4000元
2024年以来固态价格回调,造价成本较2023年一期工程提高60%,处于历史高位。
三期 IDC 建设推迟到2024年12月(等待价格回归400左右)。
内存价格高位水平,64GB内存价格居高不下。
14TB以上机械与历史持平。

离线数仓
增加专门的裸金属中央架构的超级节点服务器组(双存储节点),冷热混转,由于价格高位,暂时推迟。

5. 三期难题

问题1:是否有必要增加专门的数据湖层?
问题2:过度复杂的中台体系,将使工程量成倍增长,是否有必要完全按标准架构设计?
问题3:混合云架构运维成本的成倍增长,大量二手设备加入带来更不稳定的运维设计,如何更有效解决?
问题4:个人搭建PB级小型混合云 IDC 是否能在10万以内实现?并最终实现 TB级 及时在线知识图谱和搜索引擎检索?
问题5:现有微服务架构,如何实现吞吐密集型的高可用?如每次查询,返回数据量高达10MB左右,处理数据量高达100MB以上。
问题6:OpenAI等大模型,如何实现这类吞吐密集型高可用任务?