🧠 AI Infrastructure

AI算力中心网络架构
完整知识图谱

从 GPU 互联到 RDMA/RoCE · 从无损以太网到大规模集群网络设计
覆盖 7 大模块 · 收录 40+ 权威资源 · 制定 12 周学习计划

7
技术模块
60+
知识点
40+
推荐资源
12
周学习计划

📑 内容索引

📐 技术图谱

AI 算力网络完整知识图谱

从硬件底层到应用层的技术全貌。点击各模块可展开详细知识节点。

AI 算力中心网络架构 AI Infra 整体架构 Scale-out · GPU集群 · 通信栈 GPU 与系统总线 PCIe · NVLink · DMA · GPUDirect RDMA / RoCEv2 网络 Verbs · 零拷贝 · 无损 · 拥塞控制 GPU 集群架构 DGX SuperPOD · H100/H200 · 互联拓扑 GPU 通信技术栈 NVLink · NVSwitch · GPUDirect · P2P RDMA 通信原理 Verbs API · QP · 零拷贝 · Kernel Bypass PCIe 总线协议 PCIe Gen4/5 · Switch · 拓扑 · TLP NVLink 互连 单卡多GPU · 网状拓扑 · 900GB/s DMA 引擎 直接内存访问 · CPU卸载 · 零拷贝 RoCEv2 协议栈 IB Transport · BTH · ETH Header · UDP 无损以太网机制 PFC · ECN · DCQCN · 拥塞控制 InfiniBand vs RoCE IB vs RoCE vs iWARP · 选型对比 PCIe 体系结构 BAR空间 · RC · EP · Switch PCIe 传输层 TLP · DLLP · ACK/NACK · 流量控制 NVSwitch 多对多全互联 · 7.2TB/s 带宽 NVLink 协议 P2P Direct · Stacked DRAM · 扩展性 DMA 引擎 系统DMA · Bus Mastering · 带宽 GPUDirect RDMA GPU ↔ NIC 直接通信 · 绕过CPU RDMA Verbs libibverbs · ibv_post_* · CQE Queue Pair (QP) SQ · RQ · WQE · RQE · PSN 内存注册 (MR) rkey/lkey · PD · Pinned Memory RoCEv2 数据包 BTH · DETH · ETH + IP + UDP Congestion Mgmt PFC · ECN · DCQCN · CNP 网络验证与调试 ibdiagnet · rping · perfquery RoCE 网卡 Mellanox CX-6 · Broadcom · Intel 无损网络设计 PFC Pause Frame · DCBX · ETS IB vs RoCE vs iWARP 协议对比 · 适用场景 · 厂商生态 NCCL 通信原语 AllReduce · AllGather · Broadcast · Reduce AllReduce 算法 Ring · Tree · Double Binary Tree Incast 拥塞问题 突发流量 · 拥塞窗口 · 丢包恢复 NCCL Net 插件 SHARP · GPU聚合通信 · 加速集合 Fat-Tree 拓扑 多根树 · 无阻塞 · 水平对称 Rail-Optimized 东西向流量优化 · L1/L2 层亲和 网络瓶颈分析 瓶颈定位 · 带宽计算 · 链路利用率 集群组网架构 计算网络 · 存储网络 · 管理网络分离 ⚠ 典型故障排查 RDMA 丢包 · PFC 死锁 · NCCL 超时 网络性能调优 MTU · TC · QoS 队列 · RSS InfiniBand 架构 SHARP · Subnet Manager · Adaptive Routing 图例 核心概念 / 根节点 L1 层(主要技术域) L2 层(核心技术) L3 层(子技术) L3 层(网络设计) L3 层(RDMA) 🟣 核心层 🔵 计算层 🔵 GPU/总线 🟢 训练通信 🔷 网络架构
模块一

GPU 与系统总线

理解 GPU 集群架构、NVLink/NVSwitch 互连技术、PCIe 总线协议,以及 DMA 引擎的工作原理。这是 AI 算力的物理基础。

🎮
核心

GPU 集群架构

DGX SuperPOD 架构、H100/H200 GPU 特性、集群规模与通信需求。理解为什么 AI 训练需要高速网络。

NVIDIA 集群拓扑指南 →
重点

NVLink 与 NVSwitch

单 GPU 多互联、SGX/HBM 堆叠内存、NVIDIA 私有协议。H100 支持 18 路 NVLink,900GB/s 聚合带宽。

阿里云 GPU 通信详解 →
🔌
基础

PCIe 总线协议

PCIe Gen4/5 规格、TLP/DLLP 传输层、流控机制、多级 Switch 拓扑。GPU 与 NIC 通信的底层通道。

IB 网络技术概念详解 →
🚀
重点

DMA 引擎

系统 DMA、Bus Mastering、操作系统内存管理。RDMA 的核心就是 DMA——绕过 CPU 直接访问远端内存。

NVIDIA GPUDirect RDMA 文档 →
🔗
核心

GPUDirect 技术族

GPUDirect Storage(P2P 存储)、GPUDirect RDMA(GPU↔网卡直连)、GPUDirect P2P(同机 GPU 直连)。消除不必要的数据拷贝。

NVIDIA GPUDirect RDMA 手册 v1.8 →
🖥️
架构

DGX SuperPOD 参考架构

NVIDIA 官方参考设计:三层 Fat-Tree、InfiniBand 或 RoCE 网络、存储架构。万卡集群的设计范本。

GPU Cluster Topology Deep Dive →
模块二

RDMA 通信原理

RDMA 是 AI 算力网络的灵魂。理解 Verbs API、Queue Pair、内存注册等核心概念,掌握零拷贝和内核绕过的本质优势。

📡
核心

RDMA 基本概念

Remote Direct Memory Access——在极低 CPU 开销下实现跨主机内存访问。零拷贝(Zero-Copy)、内核绕过(Kernel Bypass)是两大核心优势。

RoCEv2 深度解析(知乎)→
🔧
重点

RDMA Verbs API

libibverbs 编程接口:ibv_post_send()、ibv_post_recv()、ibv_poll_cq()。Send/Recv vs RDMA Write/Read 的选择逻辑。

CSDN 最全 RDMA 学习教程 →
📬
重点

Queue Pair (QP)

发送队列(SQ)+ 接收队列(RQ)= 一个 QP。WQE(Work Request)、CQE(Completion Queue Entry)、PSN(Packet Sequence Number)。

B站 RDMA Verbs 编程实战 →
🔐
基础

内存注册 (MR) 与 PD

Memory Region、rkey/lkey、Protection Domain(PD)。为什么 RDMA 只能访问已注册的内存?Pinned Pages 的作用。

NVIDIA NCCL 官方文档 →
📦
论文

RDMA 传输类型

RC(可靠连接)、UC(可靠统一)、UD(不可靠数据报)。AI 训练场景主要使用 RC 和 UC,了解各自的应用场景。

QoS in RoCE 无损网络详解 →
⚙️
实战

RDMA 编程实战

编写 RDMA send/recv、RDMA write、RDMA read 源码案例。使用 ibv_*_post_* API 构建完整的 RDMA 通信程序。

B站 RDMA Verbs 编程课程 →
模块三

RoCEv2 与无损以太网

RoCEv2(RDMA over Converged Ethernet v2)是以太网上的 RDMA 实现。理解其数据包结构、PFC/ECN/DCQCN 拥塞控制机制,以及 IB vs RoCE 的选型权衡。

🌊
核心

RoCEv2 协议栈

IB Transport + IP + UDP + Ethernet。BTH(Base Transport Header)、DETH(Datagram Extended Header)。对比 IB 原生传输层。

一篇讲透 IB、RoCE、PFC、ECN →
🚦
核心

PFC(Priority Flow Control)

IEEE 802.1Qbb——基于优先级的链路层流量控制。Pause Frame 机制、8 个 TC(Traffic Class)、如何避免 PFC 死锁(PFC Deadlock)。

Broadcom RoCE Congestion Control 白皮书 →
📶
核心

ECN(Explicit Congestion Notification)

IP 层显式拥塞通知(RFC 3168)。RoCEv2 中 ECN 标记(CE bit)触发 DCQCN。ECN vs PFC 的层次差异与互补关系。

详解 DCQCN 和 PFC 协同机制 →
🧠
论文

DCQCN(Data Center QCN)

RoCEv2 的端到端拥塞控制算法。结合 ECN(网络侧)和 CNP(Congestion Notification Packet,发送方反馈)。Google 在 2015 年提出,是现代 RoCE 网络的核心。

Juniper DCQCN 技术文档 →
🏢
论文

Meta 万卡 RoCE 网络实践

Meta 2024 年 8 月发布博文,详解其用于分布式 AI 训练的 RoCEv2 网络建设经验、拥塞控制最佳实践、大型集群运维挑战。

Meta Engineering Blog →
⚖️
选型

IB vs RoCE vs iWARP 对比

三种 RDMA 实现路径的完整对比:性能、生态、成本、运维复杂度。LLaMA 3 等大规模模型训练网络选型分析。

LLaMA 3 背后的大规模 GPU 集群 RoCE 网络 →
🖧
硬件

RoCE 网卡选型

NVIDIA Mellanox CX-6/CX-7、Broadcom NetXtreme、Intel Xeon Phi。理解网卡 Offload 能力、端口带宽选择(100G/200G/400G)。

Juniper RoCEv2 AI 数据中心 →
🔍
调试

网络验证与调试工具

ibdiagnet(IB 诊断)、perfquery(端口计数器)、rping(RDMA 连通性测试)、ethool(以太网卡调试)。

Meta RDMA for AI Training 论文 →
模块四

AI 训练通信:NCCL

NCCL(NVIDIA Collective Communications Library)是分布式 AI 训练的核心通信库。理解 AllReduce 算法、NCCL 拓扑感知、以及 Incast 拥塞问题的根源。

📚
官方

NCCL 官方文档

覆盖 all-gather、all-reduce、broadcast、reduce、reduce-scatter、点对点 send/recv 等通信原语。GPU Direct 优化、PCI 访问控制、拓扑检测。

NVIDIA NCCL Documentation →
🔗
核心

AllReduce 算法

Ring-AllReduce(环状规约,带宽最优)、Tree-AllReduce(延迟最优)、Double Binary Tree(NVIDIA 优化版本)。理解算法复杂度与硬件拓扑的匹配关系。

NCCL GPU Communication 深度分析论文 →
⚠️
核心

Incast 拥塞问题

AllReduce 同步阶段,多对一的突发流量导致交换机队列堆积、丢包。PFC 死锁的触发条件、Timeout 机制的影响。理解为什么 AI 训练对网络的要求比普通 HPC 更严苛。

AI 大模型中的 RDMA 网络 →
🏎️
进阶

SHARP (SHArp REDUCTIONS)

NVIDIA 网络内聚合加速技术——在 InfiniBand 交换机上硬件完成 AllReduce,避免数据跨越网络。MLPerf 基准测试的关键加速手段。

NCCL GitHub 源码仓库 →
📊
深度

NCCL 通信引擎深度解剖

集合操作的内核实现、设备端通信、数据传输流水线。理解 NCCL 如何感知网络拓扑并选择最优通信路径。

知乎 NCCL 深度解剖 →
🔌
接口

NCCL Net 插件

NCCL 与底层网络的解耦接口。支持 TCP Socket、NVIDIA MGX、RDMA、NVLS(NVIDIA Learning Switch)等传输插件。理解 NCCL 如何适配不同网络硬件。

NCCL Collective Kernel 源码解析 →
模块五

AI 算力网络架构设计

综合前述知识,理解大规模 AI 集群的网络架构设计:Fat-Tree 拓扑、Rail-Optimized 架构、网络瓶颈分析,以及实际故障排查方法论。

🌲
核心

Fat-Tree 网络拓扑

Al-Fares 等人 2008 年提出。多层交换机结构、同构连接、无阻塞转发。NVIDIA DGX SuperPOD 采用三层 Fat-Tree,可扩展至 32+ DGX 系统。

Cluster Design Fat-Tree 详解 →
🛤️
进阶

Rail-Optimized 架构

AI 训练流量东西向为主。Rail-Optimized 将同一训练任务的 GPU 尽可能放在同一交换机下,减少跨网络跳数,降低延迟和拥塞概率。

GPU Cluster Topology Deep Dive →
🔬
分析

网络瓶颈分析方法

链路带宽计算、拥塞点定位、per-hop 延迟分析。理解网络饱和如何影响 NCCL AllReduce 的实际带宽利用率。

智算 RoCE 网络介绍 →
🔧
故障排查

RDMA 网络典型故障

RDMA 丢包(PFC 配置错误、ECN 未生效)、PFC 死锁(帧积压导致全局暂停)、NCCL Timeout(集合通信超时)。

华为云 RoCE v2 网络介绍 →
📐
论文

InfiniBand 架构进阶

Subnet Manager(子网管理器)、Adaptive Routing(自适应路由)、SHARP 加速。理解 IB 相比 RoCE 在大规模集群中的运维优势与挑战。

IB 网络技术与 Fat-Tree 拓扑 →
🚀
调优

网络性能调优参数

MTU(Jumbo Frame 9216)、TC(Traffic Class)队列映射、QoS 策略、RSS(Receive Side Scaling)、Interrupt Coalescing。

IB、RoCE、PFC、ECN、UEC 演进 →
📚 资源库

推荐学习资源完整列表

按类型分类整理,覆盖官方文档、技术博客、学术论文、视频课程、实用工具。

📖 官方文档

📘
官方

NVIDIA GPUDirect RDMA

GPUDirect RDMA 官方用户手册,涵盖 API、架构说明和版本变更记录。

docs.nvidia.com/networking →
📘
官方

NVIDIA NCCL Documentation

NCCL 完整用户指南,含 API 参考、拓扑检测、常见问题排查。

docs.nvidia.com/deeplearning/nccl →
📘
官方

NVIDIA InfiniBand Cluster 指南

InfiniBand 集群组网拓扑选择,NVIDIA 官方推荐 Fat-Tree 作为 AI 工厂拓扑。

docs.nvidia.com/networking →
📘
官方

NCCL GitHub 源码

NCCL 开源实现,含 collective kernel 源码和测试套件。

github.com/NVIDIA/nccl →
📘
官方

Broadcom RoCE Congestion Control

Broadcom PFC 和 DCQCN 技术白皮书,详细解析 RoCE 网络拥塞控制机制。

docs.broadcom.com →
📘
官方

Juniper DCQCN

Juniper DCQCN(Data Center QCN)技术指南,结合 ECN 和 PFC 的 RoCEv2 拥塞控制方案。

juniper.net →

📝 技术博客

📝
博客

一篇讲透 IB、RoCE、PFC、ECN、UEC

知乎高赞技术文章,系统性梳理 InfiniBand、RoCE、PFC/ECN 的演进关系,以及 Ultra Ethernet Consortium 的最新动态。

知乎专栏 →
📝
博客

GPU 通信技术:GPUDirect、NVLink、RDMA

系统对比三种主流 GPU 通信技术,剖析核心原理与应用场景。

知乎专栏 →
📝
博客

一文读懂 GPU 通信互联技术

GPUDirect Storage、GPUDirect RDMA、GPUDirect P2P、GPUDirect Video 四类技术详解。

知乎专栏 →
📝
博客

NCCL 通信引擎深度解剖

深入分析 NCCL 集合操作的实现机制,包括 kernel 实现和设备端通信流程。

知乎专栏 →
📝
博客

QoS in RoCE 无损网络

详解 PFC、ECN、DCQCN 的协同工作机制,从局部制动到全局调速。

博客园 →
📝
博客

AI 大模型中的 RDMA 网络

AI 训推场景下 RDMA 技术选型:IB 网络 vs RoCE 网络。

Rony's Blog →

📄 学术论文 & 工程实践

📄
论文

Meta RDMA for Distributed AI Training (SIGCOMM 2024)

Meta 工程师在 SIGCOMM 2024 发表,分享万卡级 RoCE 网络的部署经验和最佳实践。

Stanford PDF →
📄
论文

ACM SIGCOMM 2024 原文

分布式 AI 训练中 RDMA over Ethernet 的完整技术论文,含大规模部署数据。

ACM DL →
🏢
工程

Meta Engineering: RoCE Networks at Scale

Meta 工程团队官方博客,图文并茂介绍用于 AI 训练的 RoCEv2 网络架构。

Meta Engineering →
📄
论文

Demystifying NCCL (arXiv 2025)

对 GPU 通信库的深度分析,NCCL 内部机制的系统性研究论文。

arXiv →

🎬 视频课程

🎬
B站

RDMA Verbs 编程实战(B站)

从 RDMA 基本概念到 verbs 编程,编写 send/recv、RDMA write、RDMA read 源码案例。理论与实战结合。

B站课程链接 →
🎬
B站

CSDN RDMA 学习路线图

RDMA 技术分享、RDMA 编程指南、网络命令与测试、错误记录等完整学习路线。

CSDN 博客 →
📅 学习计划

12 周系统学习计划

循序渐进,从硬件基础到高级架构设计,每周聚焦一个主题,理论与实战结合。

🟢

第一阶段:基础设施(Week 1-3)

GPU 集群架构 → 系统总线 → 内存访问

Week 1

AI 算力基础设施全景

了解 GPU 集群的演进历史、A100/H100/H200 架构差异、分布式训练对网络的需求驱动力。

GPU 架构 分布式训练 通信需求
Week 2

PCIe 总线与 DMA 引擎

PCIe Gen4/5 协议栈、TLP 事务层、DMA 控制器工作原理。理解"零拷贝"背后的硬件支撑。

PCIe DMA 内存拷贝
Week 3

NVLink / NVSwitch / GPUDirect

单 GPU 互联 vs 多 GPU 全互联、NVIDIA 私有协议与标准 PCIe 的取舍、GPUDirect 家族各成员用途。

NVLink NVSwitch GPUDirect
🟣

第二阶段:RDMA 核心(Week 4-6)

RDMA 原理 → Verbs 编程 → 实战调试

Week 4

RDMA 基本概念与优势

RDMA vs TCP/IP 内核处理对比、零拷贝和内核绕过的原理、RDMA 三种实现路径(IB/RoCE/iWARP)总览。

RDMA 概念 零拷贝 Kernel Bypass
Week 5

RDMA Verbs 与 Queue Pair

libibverbs API 详解:ibv_post_send/recv、WQE/CQE、QP 状态机(INIT→RTR→RTS)、内存注册与保护域。

libibverbs QP MR/PD 编程实战
Week 6

RDMA 编程实战

搭建 RDMA 测试环境(IB 或 RoCE 网卡)、编写完整的 send/recv 和 RDMA write/read 程序、抓包分析验证数据流。

ibv_post_* 抓包分析 rping
🔵

第三阶段:RoCEv2 与无损网络(Week 7-9)

RoCEv2 协议 → 无损机制 → 拥塞控制

Week 7

RoCEv2 协议栈详解

IB Transport over Ethernet、BTH/DETH/RETH 包格式、UDP 端口 4791、IP/UDP 封装 vs IB 原生封装对比。

BTH RoCEv2 Frame UDP 4791
Week 8

PFC / ECN 无损机制

PFC IEEE 802.1Qbb 链路层流控(8 TC)、ECN RFC 3168 网络层拥塞通知、PFC 死锁问题与规避方案。

PFC ECN 死锁 DCBX
Week 9

DCQCN 拥塞控制算法

DCQCN 完整算法流程(CNP 生成、ECN 标记、速率更新)、与 TCP CUBIC 的类比理解、Meta 万卡集群调参经验。

DCQCN CNP 速率控制 调参
🟠

第四阶段:NCCL 与训练通信(Week 10-11)

NCCL 原语 → AllReduce 算法 → Incast 拥塞

Week 10

NCCL 通信原语与算法

AllReduce/Broadcast/AllGather 等原语行为、Ring-AllReduce 流水线分析、NCCL 拓扑感知机制。

AllReduce Ring Tree 拓扑感知
Week 11

Incest 拥塞与 SHARP 加速

多对一 Incast 的成因、NCCL Timeout 分析与排查、SHARP 在网内完成聚合的原理与限制条件。

Incast Timeout SHARP NCCL Net
🔴

第五阶段:集群网络架构(Week 12)

Fat-Tree 拓扑 → 架构设计 → 故障排查

Week 12

大规模集群架构与故障排查

Fat-Tree vs Rail-Optimized 拓扑设计、网络瓶颈分析方法、PFC 死锁和 RDMA 丢包的实际案例、Wireshark RDMA 抓包分析。

Fat-Tree Rail-Optimized 故障排查 Wireshark
🎯 持续

后续深入方向

学完基础后可选择以下方向深入:UEC(Ultra Ethernet Consortium)新协议、RDMA 安全(Grant 机制)、InfiniBand Subnet Manager、集群网络仿真(ns-3/OMNeT++)。

UEC RDMA Security Subnet Manager 网络仿真

💡 学习建议

🧪 动手实验优先:有条件的话准备一张 RoCE 网卡(或软 RoCE),亲手跑通 RDMA ping 测试比读十篇文档更有价值。
📊 抓包验证:用 Wireshark 抓 IB/RoCE 包,观察 BTH、payload,理解协议在数据包级别的表现。
🔢 手算带宽:AllReduce 在 N 个节点上的理论耗时 = 2*(N-1)*S/B,手算不同规模下的 NCCL 带宽利用率。
📖 论文精读:Meta SIGCOMM 2024 论文是业界最佳实践总结,建议精度 Week 9 阶段配合阅读。
🤝 结合工作:老板在 Cisco WLAN 领域的经验可迁移——交换机队列管理、QoS 策略在 RoCE 网络中完全通用。
🔬 知识点能力矩阵

知识点掌握程度自评

用以下矩阵对照自己的掌握程度,标记 ★(了解)/★★(理解)/★★★(掌握)/—(暂不需)。

知识点 了解 理解 掌握 推荐资源
GPU 集群架构(DGX SuperPOD) ★★★★★ NVIDIA 官方
PCIe Gen4/5 协议栈 ★★★★★ PCIe 规范(PCI-SIG 官网免费注册获取)
NVLink / NVSwitch ★★★★★ 阿里云博客
DMA 引擎原理 ★★★★★ Linux Kernel DMA API 文档
GPUDirect RDMA ★★★★★ NVIDIA 官方手册
RDMA 基本概念(零拷贝/内核绕过) ★★★★★ 知乎 RoCE 详解
RDMA Verbs API(libibverbs) ★★★★★ B站 Verbs 编程
Queue Pair / WQE / CQE ★★★★★ IB 规范 Vol1(InfiniBand Trade Association)
内存注册(MR)/ rkey-lkey / PD ★★★★★ Linux rdma-core 源码 examples/
RoCEv2 协议栈(BTH/ETH/IP/UDP) ★★★★★ IB·RoCE·PFC 演进
PFC(Priority Flow Control) ★★★★★ Broadcom 白皮书
ECN(Explicit Congestion Notification) ★★★★★ QoS in RoCE
DCQCN 算法 ★★★★★ Juniper DCQCN
NCCL AllReduce 算法 ★★★★★ arXiv NCCL 论文
Incast 拥塞问题 ★★★★★ Meta Engineering
SHARP 网络内聚合 ★★★★★ NVIDIA NCCL 文档
Fat-Tree 网络拓扑 ★★★★★ Cluster Design
Rail-Optimized 架构 ★★★★★ GPU Topology Deep Dive
网络瓶颈分析方法 ★★★★★ SIGCOMM 2024 论文
RDMA/PFC 故障排查 ★★★★★ CSDN RDMA 教程