从数据到智能:企业级数据平台的构建、演进与 Agentic BI 实践¶
一个数据开发的八年数据工程手记:从 0 到 1 构建企业级医药数据平台,再到 Data + AI 转型下的 Agentic BI。
关于本书¶
这是一本面向数据工程师、平台架构师与 AI 应用工程师的实践型技术专著。作者以首席解决方案架构师的第一人称视角,完整记录了一座企业级医药数据平台从无到有、从数据到智能的演进全过程。
书中没有止步于"怎么做",而是着重回答"为什么这么做、当时有什么约束、对比主流方案怎么取舍"。全书聚焦设计、思想与方案,不沉溺于代码实现细节——因为代码会过时,架构思想留得下来。
叙事背景:甲方 Aurora Pharma(奥罗拉制药,全球 top 医药外企,中国区业务);乙方 NorthPeak Consulting(北峰咨询,top 外企咨询);作者为 NorthPeak 驻场首席解决方案架构师。书中所有公司、人员、系统标识均为虚构。
全书结构¶
章节依赖总览¶
阅读说明
箭头表示"阅读完本章后建议阅读的下一章"。颜色表示难度层级:🟢 基础必读 → 🔵 核心实践 → 🟠 进阶演进 → 🟣 AI 前沿 → 🔴 治理复盘。
%%{init: {'theme':'base','themeVariables':{'primaryColor':'#edf5ff','primaryTextColor':'#161616','primaryBorderColor':'#0f62fe','lineColor':'#697077','secondaryColor':'#d9fbfb','tertiaryColor':'#f2f4f8','fontSize':'14px'}}}%%
flowchart TB
%% ===== Part I: 起点 =====
subgraph P1["<b>Part I · 起点</b>"]
direction LR
ch1("1. 医药数据困局") --> ch2("2. 平台蓝图诞生") --> ch3("3. 技术栈全景")
end
%% ===== Part II: 架构设计 =====
subgraph P2["<b>Part II · 架构设计</b>"]
ch4("4. 五层模型") --> ch5("5. 数据流全景")
ch4 --> ch8("8. Redshift 仓库")
ch4 --> ch9("9. 计算与 ETL")
ch4 --> ch10("10. 编排调度")
ch4 --> ch11("11. 配置与状态")
ch5 --> ch6("6. 环境隔离")
ch5 --> ch7("7. 数据湖分层")
end
%% ===== Part III: 数据工程 =====
subgraph P3["<b>Part III · 数据工程</b>"]
ch12("12. 任务模型") --> ch13("13. 连接器框架")
ch13 --> ch14("14. JDBC 连接器")
ch13 --> ch15("15. 文件 S3 连接器")
ch13 --> ch16("16. API 邮件连接器")
ch14 & ch15 & ch16 --> ch17("17. 三层开发实战")
ch17 --> ch18("18. 脱敏与隐私")
ch12 --> ch19("19. 开发配方")
ch12 --> ch20("20. 元数据血缘")
end
%% ===== Part IV: 基础设施 =====
subgraph P4["<b>Part IV · 基础设施</b>"]
ch21("21. Terraform 架构") --> ch22("22. 核心仓设计")
ch22 --> ch23("23. 业务同构仓")
ch21 --> ch24("24. 通用模块")
ch22 --> ch25("25. tfvars 模型")
ch10 -.-> ch26("26. SF 模板注入")
ch22 --> ch27("27. CI/CD 平台")
ch27 --> ch28("28. 四类发布流")
ch27 --> ch29("29. OIDC 凭证")
ch28 --> ch30("30. 工程师工作流")
end
%% ===== Part V: 平台演进 =====
subgraph P5["<b>Part V · 平台演进</b>"]
ch31("31. SQLServer 迁移") --> ch32("32. 跨账号同步")
ch32 --> ch33("33. 自研 DAG")
ch31 & ch32 & ch33 --> ch34("34. 设计边界复盘")
end
%% ===== Part VI: 衍生系统 =====
subgraph P6["<b>Part VI · 衍生系统</b>"]
ch35("35. 衍生总领") --> ch36("36. 零售门户")
ch36 --> ch37("37. DaaS 激活层")
end
%% ===== Part VII: Data + AI =====
subgraph P7["<b>Part VII · Data + AI</b>"]
ch38("38. AI-Ready 供应") --> ch39("39. Agentic BI 架构")
ch39 --> ch40("40. 语义平面")
ch39 --> ch41("41. 四引擎 RAG")
ch40 & ch41 --> ch42("42. Agent 编排")
ch42 --> ch43("43. 查询规划器")
ch42 --> ch44("44. SQL 护栏")
ch42 --> ch45("45. 记忆与工具")
ch39 --> ch46("46. CDP 整合")
ch42 --> ch47("47. 评估可观测")
end
%% ===== Part VIII: 治理复盘 =====
subgraph P8["<b>Part VIII · 治理复盘</b>"]
direction LR
ch48("48. 安全合规") --> ch49("49. 监控审计") --> ch50("50. 排障实战") --> ch51("51. 价值度量") --> ch52("52. 架构师复盘")
end
%% ===== 跨 Part 依赖 =====
P1 --> P2
P2 --> P3
P2 --> P4
P3 --> P5
P4 --> P5
P3 --> P6
P4 --> P6
P3 --> P7
P4 --> P7
P2 --> P7
P5 & P6 & P7 --> P8
%% ===== 样式定义(按难度层级:🟢 基础 → 🔵 核心 → 🟠 进阶 → 🟣 AI → 🔴 治理)=====
classDef bpSuccess fill:#defbe6,stroke:#198038,stroke-width:2px,color:#161616
classDef bpProcess fill:#edf5ff,stroke:#0f62fe,stroke-width:2px,color:#161616
classDef bpDecision fill:#fcf4d6,stroke:#f1c21b,stroke-width:2px,color:#161616
classDef bpInfo fill:#f6f2ff,stroke:#8a3ffc,stroke-width:2px,color:#161616
classDef bpError fill:#fff1f1,stroke:#da1e28,stroke-width:2px,color:#161616
classDef bpGroup fill:#ffffff,stroke:#0f62fe,stroke-width:2px,color:#161616
class ch1,ch2,ch3 bpSuccess
class ch4,ch5,ch6,ch7,ch8,ch9,ch10,ch11 bpProcess
class ch12,ch13,ch14,ch15,ch16,ch17,ch18,ch19,ch20 bpProcess
class ch21,ch22,ch23,ch24,ch25,ch26,ch27,ch28,ch29,ch30 bpDecision
class ch31,ch32,ch33,ch34 bpDecision
class ch35,ch36,ch37 bpDecision
class ch38,ch39,ch40,ch41,ch42,ch43,ch44,ch45,ch46,ch47 bpInfo
class ch48,ch49,ch50,ch51,ch52 bpError
class P1,P2,P3,P4,P5,P6,P7,P8 bpGroup
linkStyle default stroke:#697077,stroke-width:2px
阅读路径¶
根据你的角色与目标,选择最适合的阅读路径:
架构师路径(理解"为什么这样设计")¶
适合:技术负责人、解决方案架构师、平台设计者
- 前言 → Ch 1 医药数据困局 → Ch 2 平台蓝图
- Ch 4 五层模型 → Ch 5 数据流全景 → Ch 8 数据仓库设计 → Ch 10 编排调度
- Ch 21 Terraform 架构 → Ch 27 CI/CD 平台
- Ch 38 AI-Ready 数据供应 → Ch 39 Agentic BI 架构 → Ch 52 架构师复盘
工程师路径(理解"怎么开发")¶
适合:数据工程师、ETL 开发者、平台运维
- 前言 → Ch 3 技术栈全景
- Ch 11 配置与状态管理 → Ch 12 任务模型 → Ch 13 连接器框架
- Ch 14-16 三类连接器 → Ch 17 三层开发 → Ch 19 开发配方
- Ch 28 四类发布流 → Ch 30 工程师工作流 → Ch 50 排障实战
迁移负责人路径(理解"如何迁移与协同")¶
适合:负责系统迁移、跨账号数据同步的工程师与项目经理
- Ch 31 SQL Server → Redshift 迁移 → Ch 32 跨账号同步 → Ch 33 自研 DAG → Ch 34 设计边界复盘
- Ch 36 零售数据源门户(T+1 双向同步模块)
AI 工程师路径(理解"Data+AI 转型")¶
适合:AI 应用工程师、Agentic BI 建设者、LLM 应用架构师
- Ch 38 AI-Ready 数据供应 → Ch 39 Agentic BI 架构
- Ch 40 语义平面 → Ch 41 四引擎 RAG → Ch 42 Agent 编排
- Ch 43 查询规划器 → Ch 44 SQL 护栏 → Ch 45 记忆与工具
- Ch 46 CDP 整合 → Ch 47 评估可观测
目录¶
前言¶
Part I 起点:为什么需要一座数据平台¶
Part II 架构设计:从 0 到 1 构建平台骨架¶
- Ch 4 平台五层模型与设计哲学
- Ch 5 端到端数据流全景
- Ch 6 环境与多账号隔离设计
- Ch 7 数据湖分层设计
- Ch 8 数据仓库设计(Redshift)
- Ch 9 计算与 ETL 设计(Glue + Lambda)
- Ch 10 编排与调度设计(Step Functions + EventBridge)
- Ch 11 配置与状态管理
Part III 数据工程实践:连接器与流水线¶
- Ch 12 配置驱动的任务模型
- Ch 13 连接器框架总览
- Ch 14 数据库与 JDBC 连接器
- Ch 15 文件与 S3 连接器
- Ch 16 API、SaaS 与邮件连接器
- Ch 17 Landing→Raw→Enriched 开发实战
- Ch 18 数据脱敏与隐私治理
- Ch 19 任务开发配方与实战案例
- Ch 20 元数据管理与数据血缘
Part IV 基础设施与工程效能¶
- Ch 21 Terraform 架构总览
- Ch 22 核心基础设施仓库设计
- Ch 23 业务仓库设计与同构模式
- Ch 24 通用 Terraform 模块设计
- Ch 25 环境参数与 tfvars 模型
- Ch 26 Step Functions 模板注入
- Ch 27 CI/CD:可复用工作流平台
- Ch 28 四类发布流
- Ch 29 OIDC 与凭证治理
- Ch 30 工程师日常工作流与变更场景
Part V 平台演进:数据迁移与跨系统协同¶
- Ch 31 遗留系统迁移:SQL Server → Redshift(10TB)
- Ch 32 跨账号批量同步:双桶桥接架构
- Ch 33 自研 DAG 调度器与任务编排
- Ch 34 设计边界与已知取舍的诚实复盘
Part VI 衍生业务系统:平台的能力外延¶
Part VII Data + AI 转型:从数据平台到 Agentic BI¶
- Ch 38 时代命题:AI-Ready 数据供应
- Ch 39 Agentic BI 架构总览
- Ch 40 语义平面:三层治理与 Git+ YAML
- Ch 41 R/V/G/D 四引擎 RAG 检索
- Ch 42 Agent 编排:LangGraph 与状态机
- Ch 43 语义查询规划器:Steiner 树与代数改写
- Ch 44 五层 SQL 护栏与执行安全
- Ch 45 记忆系统与工具使用
- Ch 46 数据平面与 CDP 整合
- Ch 47 评估、可观测与持续演进
Part VIII 治理、运维与价值复盘¶
- Ch 48 安全、合规与治理
- Ch 49 日志、监控、审计与告警
- Ch 50 排障与可观测性实战
- Ch 51 价值度量与案例复盘
- Ch 52 架构师的复盘:取舍、遗憾与主流对比
- Ch 53 致谢与团队
附录¶
- 附录 A 术语表与学习地图
- 附录 B 索引与导航
- 附录 C 技术栈速查表
- 附录 D 参考文献与延伸阅读
- 附录 E 常见问题(FAQ)
- 附录 F Agentic BI 快速启动指南
- 附录 G 成本治理与 FinOps
本书约定¶
| 标记框 | 图标 | 含义 |
|---|---|---|
| !!! tip "引申" | 超出当前实践的延伸知识,供读者深入思考 | |
| !!! warning "Trade-off" | 当前设计在特定约束下的取舍,并给出主流方案对比 | |
| !!! info "面包屑" | 章节在全书中的定位导航 | |
| !!! info "项目时间线" | 本章内容发生在项目的哪个阶段 | |
| !!! quote "下一章" | 演进承接——下一阶段的挑战 | |
| Mermaid 图 | 架构图、流程图、时序图、状态图,图文并茂说明设计 | |
| 对比表 | 方案选型的多维度对比 | |
| 代码示例 | 自包含的示意片段,非真实生产代码 |
最后更新:2026-06-18 · 作者:首席解决方案架构师(Aurora Pharma × NorthPeak Consulting)