大量更新

This commit is contained in:
zeaslity
2026-07-01 10:44:16 +08:00
parent d10aee90ed
commit d213a1146c
21 changed files with 2526 additions and 75 deletions

View File

@@ -0,0 +1,70 @@
你是一名精通现在k8s集群容灾备份方案的设计专家你需要面对XXX的容灾备份方案设计。
背景介绍
1. XXX包括飞服平台、监管平台两大实际的运行平台
2. 飞服平台和监管平台均采用k8s集群的部署方式两个平台运行环境独立
3. 飞服平台使用如下的中间件
1. EMQX 负责存储无人机、机库传输的数据,理论不需要容灾备份
2. MySQL 负责存储平台所有的业务数据
3. InfluxDB 负责存储平台的时序数据
4. MINIO 负责无人机和机库产生的视频数据
4. 监管平台使用如下的中间件
1. EMQX 负责存储探测、反制设备、无人机、机库传输的数据,理论不需要容灾备份
2. MySQL 负责存储平台所有的业务数据
3. Doris 负责存储多源融合分析产生的时序数据,负责存储三位空间地图数据
4. MINIO 负责保存视觉探测产生的视频和图片数据
5. 飞服平台和监管平台采用不同的域名访问如飞服平台域名为A.com 监管平台域名为B.com
容灾备份要求
1. 以飞服平台为例,飞服平台需要一模一样部署在电信机房,移动机房,通过域名访问飞服平台
2. 某一机房发生故障后,其他机房应该在两小时内实现业务接管,恢复平台的正常运行
3. 可以允许两小时的数据丢失
4. 数据备份过程中,要保证数据不外泄
# 基础方案
1. 飞服和监管平台采用相同的灾备方案
2. 每个机房独立部署,不相互依赖
3. 采用双中心+异地灾备的方案
4. 数据备份采用定期备份+增量备份的方式,数据同步采用对称加密的方式传输,保证数据安全
## 灾备切换流程
1. 电信机房出现故障,无法恢复,触发灾备切换流程
2. 域名管理方 将A.com的解析IP指向移动机房的IP
3. 用户通过A.com访问移动机房的飞服平台
4. 平台故障恢复时间可以控制在10分钟内但是数据可能丢失2小时
## 日常数据容灾备份同步流程
1. 飞服和监管平台需要备份的数据不同,当数据备份流程相同
2. 增量备份
1. 飞服平台需要备份的数据为
1. MySQL --> MySQL 每2时备份一次每次备份2小时的数据通过对称加密传输
2. MinIO --> MinIO 每2时备份一次每次备份2小时的数据通过对称加密传输
3. InfluxDB --> InfluxDB 每2时备份一次每次备份2小时的数据通过对称加密传输
2. 监管平台需要备份的数据为
1. MySQL --> MySQL 每2时备份一次每次备份2小时的数据通过对称加密传输
2. MinIO --> MinIO 每2时备份一次每次备份2小时的数据通过对称加密传输
3. InfluxDB --> InfluxDB 每2时备份一次每次备份2小时的数据通过对称加密传输
4. Doris --> Doris 每2时备份一次每次备份2小时的数据通过对称加密传输
3. 增量备份数据保存3份副本
3. 全量备份
1. 每周日凌晨02:00对所有数据进行全量备份备份到独立的存储设备上
2. 全量备份保存1份副本
4. 备份及传输安全机制
1. 增量备份应该保证业务平台的数据不丢失
2. 备份流程应该是自动化运行的,遇到出错的情况,需要人工介入
3. 备份数据采用对称加密的方式传输,保证核心数据不外泄
4. 备份数据的传输需要经过一致性校验,保证数据的完整性
5. 备份数据导入流程应该是自动化运行的,遇到出错的情况,需要人工介入
文档生成要求
1. 需要图片的地方,请使用文字占位,使用文字详细描述图片的内容
2. 文档应该专业,不应该口语化
3. 文档内容应该完备,不要丢失原始设计中的内容
4. 上述文档比较简洁,但是正式文档中应该将飞服平台和监管平台的有区别的内容分离完善
5. 应该为后续的具体操作预留章节空白
6. 灾备文档的一级标题、二级标题、三级标题清晰明了,有逻辑性
不要参考本机其他文件,可以联网搜索,请为我生成一份满足上述要求的灾备方案文档

View File

@@ -0,0 +1,177 @@
这是一份为您定制的XXX系统容灾备份架构设计与实施方案文档。文档采用了标准的企业级架构设计语言严格区分了飞服平台与监管平台的差异并按照要求使用了详细的文字占位来描述架构图表同时为后续实操步骤预留了标准章节。
---
# XXX系统容灾备份架构设计与实施方案
## 1. 项目背景与总体要求
### 1.1 系统概述
XXX系统作为核心业务系统主要由“飞服平台”与“监管平台”两大独立运行的平台构成。为保证业务的高可用性与数据隔离性两个平台均采用KubernetesK8s集群架构进行独立部署网络与运行环境互不干扰。
* **飞服平台访问域名A.com**:主要负责无人机与机库数据接入、业务数据管理、时序状态记录及视频流存储。
* **监管平台访问域名B.com**:主要负责探测与反制设备数据接入、多源融合分析数据存储、三维空间地图管理及视觉探测图文存储。
### 1.2 容灾备份核心指标
本方案旨在构建具备高可用、高抗风险能力的双中心容灾体系,具体目标指标如下:
* **恢复时间目标RTO**:核心业务故障接管与恢复运行时间控制在 **2小时** 以内(其中域名调度及流量切换时间预期控制在 **10分钟** 内)。
* **恢复点目标RPO**:允许的最大数据丢失量控制在 **2小时** 以内。
* **安全与合规性**:在所有跨机房、跨中心的数据传输与备份过程中,必须采用强加密手段,确保核心业务数据不发生外泄。
---
## 2. 灾备总体架构设计
### 2.1 架构设计原则
1. **统一性与独立性并存**:飞服平台与监管平台采用一致的基础灾备技术栈与流程方案,但两个平台在物理与逻辑上均保持独立运作。
2. **双中心冗余**:采用“双中心+异地灾备”架构,系统在电信机房与移动机房进行完全一致的对等部署,互不构成运行依赖。
3. **加密与校验优先**:数据同步采用定期加增量模式,全程通过对称加密通道传输,并在落盘前实施严格的一致性校验。
### 2.2 总体网络与灾备拓扑
> **[图片占位XXX系统双中心异地灾备总体架构图]**
> *图表详细说明:*
> *1. 顶部为“全局流量管理层DNS/GSLB分别指向 A.com 和 B.com 两个域名。*
> *2. 中部划分为左右两个对等的大区块,左侧标识为“主生产中心(电信机房)”,右侧标识为“灾备接管中心(移动机房)”。*
> *3. 每个机房内部再细分为两个独立的K8s集群“飞服平台K8s集群”与“监管平台K8s集群”。*
> *4. 两个机房之间绘制一条横向的“加密数据同步通道”,使用锁图标表示对称加密状态。主数据流向由电信机房指向移动机房。*
> *5. 底部为一个独立的“异地备份存储中心”,电信机房和移动机房均有虚线指向该中心,表示定期全量备份的数据流向。*
---
## 3. 中间件与数据同步详细策略
### 3.1 飞服平台数据同步策略
飞服平台核心依赖EMQX、MySQL、InfluxDB及MinIO。其中EMQX仅作为设备接入的数据管道其数据具备瞬时性和可重传性无需纳入容灾备份范围。其余状态化中间件策略如下
* **MySQL平台业务数据**
* **同步对象**:全量业务配置、用户信息、任务状态等。
* **同步链路**:电信机房 MySQL -> 加密通道 -> 移动机房 MySQL。
* **InfluxDB平台时序数据**
* **同步对象**:无人机飞行遥测数据、机库传感器状态等高频时序数据。
* **同步链路**:电信机房 InfluxDB -> 加密通道 -> 移动机房 InfluxDB。
* **MinIO非结构化数据**
* **同步对象**:无人机与机库产生的视频流切片及录像文件。
* **同步链路**:电信机房 MinIO -> 加密通道 -> 移动机房 MinIO。
### 3.2 监管平台数据同步策略
监管平台除包含MySQL、MinIO和EMQX同样不纳入灾备在时序与大数据处理上存在差异具体策略如下
* **MySQL平台业务数据**
* **同步链路**:电信机房 MySQL -> 加密通道 -> 移动机房 MySQL。
* **Doris融合分析与空间数据**
* **同步对象**:多源融合分析产生的多维聚合时序数据、三维空间地图资产。
* **同步链路**:电信机房 Doris -> 加密通道 -> 移动机房 Doris。
* **InfluxDB基础时序数据**
* **同步链路**:电信机房 InfluxDB -> 加密通道 -> 移动机房 InfluxDB。
* **MinIO视觉图片数据**
* **同步对象**:视觉探测设备产生的海量抓拍图片及告警视频证据。
* **同步链路**:电信机房 MinIO -> 加密通道 -> 移动机房 MinIO。
---
## 4. 备份机制与安全保障
### 4.1 备份周期与副本管理
系统采用“高频增量+定期全量”的组合备份机制,保障数据恢复的多版本选择。
* **增量备份机制**
* **执行频率**每2小时自动触发一次。
* **数据切片**每次仅备份过去2小时内产生的新增及变更数据。
* **副本保留**:增量备份数据在灾备端保存 **3份** 历史副本,以便应对逻辑错误导致的数据污染。
* **全量备份机制**
* **执行频率**:每周日凌晨 02:00 自动触发。
* **目标存储**:输出至独立于双中心之外的专用异地存储设备(或专用的长期冷存储集群)。
* **副本保留**:全量备份保留 **1份** 最新完整副本。
### 4.2 传输安全与完整性校验
* **对称加密传输**:所有跨机房备份数据在打包生成后,立刻采用高强度对称加密算法(如 AES-256进行加密处理随后通过专用通道传输至目标机房。
* **一致性校验**:数据包在接收端解密前及解密后,均需通过哈希校验(如 SHA-256确保数据在传输过程中未被篡改或发生网络丢包。
* **防数据丢失承诺**增量备份机制在底层通过事务日志如MySQL的Binlog及对象存储的增量API抓取确保业务平台在2小时RPO窗口外的数据实现 100% 留存。
### 4.3 自动化流水线保障
* 数据备份与导入恢复流程完全基于自动化脚本/运维编排工具(如 K8s CronJob 结合自研 Operator执行形成无人工干预的闭环。
* **异常熔断与人工介入**:当自动化流水线监测到加密失败、校验不一致或导入超时等严重异常时,将立即阻断当前流程,发送最高级别告警,转由人工运维团队介入排查。
---
## 5. 灾备切换与恢复流程
### 5.1 故障确认与灾备触发
> **[图片占位:灾备切换业务流转时序图]**
> *图表详细说明:*
> *1. 最左侧为“用户终端”向右发起请求至“域名DNS管理平台”。*
> *2. 当“电信机房(主)”监控节点连续三次探测无响应,触发“故障灾难宣告”事件。*
> *3. 时序图流转至管理员节点,由管理员/自动化系统下发指令至“域名DNS管理平台”变更解析记录。*
> *4. 数据流向重新由DNS指向“移动机房”。*
> *5. 移动机房K8s集群内部启动业务Pod扩容与流量接管虚线框标注重生后的业务流。*
### 5.2 域名解析级流量切换
1. **故障确认**:确认电信机房出现网络阻断或核心集群崩溃,且短时间内无法恢复。
2. **DNS调度**由域名管理方登录DNS控制台将飞服平台A.com与监管平台B.com的 A 记录或 CNAME 重新指向移动机房对应的公网网关 IP。
3. **时间控制**凭借低TTL值Time-To-Live设置确保流量调度在 **10分钟内** 全局生效,用户侧感知为短暂的服务不可达后恢复。
### 5.3 业务接管与数据恢复验证
1. 流量切换后,移动机房的 K8s Ingress 控制器接管 A.com 与 B.com 的所有外部请求。
2. 系统基于移动机房最近一次2小时内导入的备份数据提供服务最大数据回退时间不超过2小时。
3. 业务全面接管时效硬性控制在 **2小时** 以内。
---
## 6. 灾备系统日常运维操作手册(预留)
*说明:本章节预留用于记录具体的 CLI 脚本、K8s YAML 配置文件路径及中间件灾备配置参数,需由实施工程师在系统部署完成后进行补充。*
### 6.1 飞服平台 MySQL 增量同步脚本配置
(预留空白:待补充脚本代码及自动化部署配置)
### 6.2 监管平台 Doris 数据双中心同步配置
(预留空白:待补充 Doris 跨集群同步参数与网络策略)
### 6.3 秘钥管理与对称加密更新操作指南
(预留空白:待补充 KMS 密钥轮转及凭证替换流程)
---
## 7. 应急响应与演练指南(预留)
### 7.1 DNS 切换演练标准操作程序SOP
预留空白待补充具体的操作截图、审批流程及DNS操作台界面说明
### 7.2 备份数据导入失败的人工干预恢复流程
(预留空白:待补充各种中间件脏数据清理、手动导库及一致性修复的命令行操作指南)

File diff suppressed because it is too large Load Diff