智算中心基础架构设计解决方案
一、引言
随着人工智能技术的飞速发展,智算中心作为支撑大规模人工
智能计算任务的基础设施,其架构设计的合理性与先进性至关重要。
本方案旨在构建一个高性能、高可靠、可扩展的智算中心基础架构,
以满足各类深度学习、数据分析等计算密集型应用的需求。
二、需求分析
1. 计算性能需求 :智算中心需具备强大的计算能力,能够高效
处理大规模深度学习模型训练任务,如自然语言处理中的大语言模
型训练、计算机视觉领域的复杂图像识别与处理等,对浮点运算性
能(如 FP32、FP16、BF16 等)有极高要求。
2. 存储需求 :需要 大容量、高读写 速度的存储系统来存储海量
的训练数据、模型参数以及中间结果。包括高速本地存储用于快速
数据读取,以及分布式存储用于长期数据保存与共享。
3. 网络需求 :内部 GPU 间 、 服务器间 以及与 存储系统间 需要
高速、低延迟的网络连接,以确保数据的快速传输与协同计算,同
时与外部网络要有安全可靠的交互通道,满足数据上传下载与远程
管理需求。
4. 可扩展性需求 :架构应具备良好的扩展性,能够方便地添加
服务器、GPU 等计算资源以及存储容量,以适应不断增长的业务需
求与技术发展。
5. 可靠性需求 :提供高可靠性保障,避免单点故障影响整个智
算中心的运行,确保计算任务的连续性与数据的安全性。
三、架构设计图
数据中心整体架构采用分层设计,主要包括基础设施层、网络
层、计算资源层、存储资源层和管理监控层,以下是各层的简要介
绍及架构图示例:
基础设施层 :包含机房建筑、电力供应、制冷系统等,为数据
中心提供基础物理环境支持。
网络层 :核心交换机、接入交换机、防火墙等网络设备构建数
据中心的网络架构,实现数据的高速传输和安全防护。
计算资源层 :由高性能服务器、GPU 服务器等组成,为业务
提供强大的计算能力。
存储资源层 :采用存储区域网络(SAN)、网络附属存储
(NAS)等存储设备,满足数据的存储和备份需求。
管理监控层 :部署数据中心管理系统、监控系统等,对数据中
心的设备、资源和运行状态进行统一管理和监控。
三、高性能服务器选型部署
(一)选型要点
1. 计算能力 :
o
依据智算中心主要业务类型,如深度学习训练、大规模
数据分析等,确定 C PU 核心数与 频率 要求。例如对于深度学习任务,
多 核心 且 高 频率 的 C PU 能加速数据 预 处理与模型 推 理部分计算。同
时 考虑 采用 GPU 或专 用 A I 芯片 (如 N VIDI A A1 00 、A MD MI 25 0
等)来大 幅 提 升矩阵 运算等 特 定计算任务的性能, 根 据任务需求确
定 GPU 与 C PU 的 配比 ,一 般 GPU 数量在 多卡 服务器中可为 - 8
块 不等。
o
对于内存,深度学习训练 场景 通 常 需要大容量内存(如
每 GPU 配 备 32GB - 64GB 甚 至 更 高)以容 纳 大规模 模型参数 与 中
间数据 , 且 内存 带宽 要足够高以保 证 数据快速传输 到 计算单 元 。
2. 存储性能 :
o
采用高速 N VMe SS D 作为本地存储,用于存储 操 作系
统、应用程 序 以及部分 常 用数据集,提供低延迟的数据读写。 根 据
服务器用 途 ,存储容量可在 1 T B - 1 0T B 左右配置 。
o
考虑 构建分布式存储系统(如 Ceph 、G luster FS 等),
将 大量服务器的本地存储资源整合 起 来,提供海量、高可靠、高可
用的存储服务,以满足大规模数据存储需求,其容量可 根 据智算中
心数据规模规 划 扩展至 PB 级 。
3. 扩展性 :
o
服务器应具备良好的内部扩展能力,如 多 个 P CIe 插槽
以便 灵活 添加 GPU、网 卡 等扩展 卡 ,内存 插槽 数量 充 足以便 后 续内
存扩容。
o
在机架层 面 , 选择标准 的 1 9 英寸 机架式服务器,方便
在机 柜 中部署与管理, 并且 确保机 柜空 间、电力供应与 散热 能力能
支持 未 来服务器数量的增长。
4. 可靠性与可管理性 :
o
支持 冗余 电源、 风扇 等部 件 ,确保单一部 件 故障时服务
器 仍 能 稳 定运行。采用 ECC 内存技术 纠正 内存数据 错误 ,提高系统
可靠性。
o
配 备 完善 的服务器管理接 口 (如 I P MI ),便于远程监控
服务器 硬件 状态( 温 度、电 压 、 风扇转 速等)、进行远程 开 关机与
重 启操 作,以及在系统故障时进行远程 诊 断与 修 复。
1、高性能服务器选型与部署
CPU 选型 :
o
核心数与频率 :对于大规模的深度学习训练任务,通 常
需要 较多 的 C PU 核心来处理数据 预 处理、模型参数 更新 等任务。如
英特尔 的至强可扩展处理器, 铂金 系 列 的高 端 型 号 具有高核心数和
高 频率 ,可满足复杂计算需求, 但 成本 也相 对 较 高 ;而 对于一 些 对
C PU 性能要求不是 特 别极 致 的 场景 ,可 选择 核心数适中、性 价比 高
的型 号 ,如至强 铜牌或银牌 系 列 。
o
架构与兼容性 :不同架构的 C PU 在性能、 功耗 和 指令
集等方 面 存在 差异 。 较新 的架构通 常 在性能和能效 比 上 更 有 优势 ,
同时 还 需 考虑 与服务器主 板 、内存以及其 他硬件 的 兼 容性,确保系
统的 稳 定运行。
内存配置 :
o
容量 :内存容量要 根 据任务需求和数据集大 小 来确定。
对于处理大规模数据集的深度学习任务,建 议配置较 大容量的内存,
如 几百 GB 甚 至数 T B。一 般 来 说 , 每块 GPU 配 备一定 比 例的内存,
如 8 块 H 1 00 或 A1 00 GPU 的服务器,可 配置 1 T B - 2 T B 或更 高
的内存.
o
频率与类型 :高 频 内存能够加快数据读写速度,提 升 系
统性能。 DDR 4 和 DDR 5 是 常见 的内存类型, DDR 5 内存具有 更 高
的 频率 和 带宽 , 但价格相 对 较 高,可 根 据 预 算和性能要求进行 选择 。
存储系统 :
o
硬 盘 类 型 : 可 选 用 固 态 硬 盘 ( SS D ) 和 机 械 硬 盘
( HDD )的组合。SS D 作为系统 盘 和 常 用数据存储 盘 ,能够提供快
速的读写速度,加快系统 启动 和数据加载 ;而 HDD 则 可用于大容
量数据的长期存储, 降 低成本.
o
存储容量 : 根 据数据量的大 小 和增长 趋势 来确定存储容
量。对于大规模的数据集和模型存储,需要 配置 数 十 T B 甚 至数 百
T B 的存储容量,可通 过 添加 硬盘 扩展 柜或使 用分布式存储系统来满
足需求。
o
存储接口 :高速的存储接 口 能够提 升 数据传输速度,如
N VMe 接 口 的 SS D 相比 SA T A 接 口 具有 更 高的性能,可 选择 支持
N VMe 协 议 的 硬盘 和主 板 ,以 充 分发 挥 存储系统的性能。
网络接口 :
o
以太网接口 :用于连接 前端 网络,实现与外部网络的通
信 和 数 据 传 输 。 一 般 需 要 配 备 高 速 的 以 太 网 接 口 , 如
1 0 G bps 、25G bps 或 1 00 G bps 的以 太 网网 卡 ,以满足数据上传下
载和集 群 管理的需。
o
InfiniBand 接口 :对于 GPU 之 间的高速通 信 和大规模
集 群 的高性能计算, Infini B and 网络是理 想 的 选择 。可 根 据服务器
的 GPU 数量和性能需求, 配置相 应 端口 数量和 带宽 的 Infini B and
网 卡 ,如 4 00 G bps 或 800 G bps 的 Infini B and 网 卡 ,以实现低延
迟、高 带宽 的 GPU 通 信 。
o
部署 : 根 据智算中心的规模和任务需求,采用机 柜 式部
署。 将 服务器 按照功 能和应用 场景 分区 放置 ,便于管理和 维 护。同
时,要 考虑 机房的电力供应、 散热 等基础设施,确保服务器的 稳 定
运行。
2、算力卡选型与部署
GPU H100 :
o
原因 : H 1 00 采用先进的 Hopper 架构和 Tensor Core 技术,性
能 比 上一 代产品 有 显著 提 升 ,能够大 幅缩短 深度学习训练时间和提高 推 理速度,
适用于大规模语言模型训练、图像识别等复杂任务。其提供的 80 GB 和 12 0 GB
的 H B M 3 显 存,可支持处理 更 大规模的模型和数据集。
o
配置逻辑 :通 常每台 服务器可 配 备 4 - 8 块 H 1 00 GPU, 搭配双
路 高 端 C PU、1 T B - 2 T B 内存、数 块 N VMe SS D 硬盘 以及 800 G bps 的
Infini B and 网 卡 ,构建强大的计算 平台 , 充 分发 挥 H 1 00 的性能 优势 。
3、NVIDIA H100
架构与工艺 :采用 新 一 代 的 Hopper 架构,基于 台积 电 4 nm 工 艺 制 造 ,
集成 800 亿 个 晶 体管,单 芯片 设计,是 目前较 为先进的 芯片 制程与架构组合,
为其强大的性能 奠 定 了 基础。
核心参数 : 完 整 版 有 8 组 GP C 、 7 组 T P C 、144 组 S M , 每 组 S M 有
12 8 个 FP3 C U D A 核心, 总 计 1 8 43 个。 但 实 际 的 S XM 5 版 本和 P CIe 5. 0 版
本 会 有不同程度的 削减 ,如 P CIe 5. 0 版 本的 C U D A 核心 只 有 14 9 5 个。
显 存 配 置 : 配 备 80 GB H B M 3 显 存 , 位 宽 6144 -bit , 显 存 带 宽
3.35 T B /s ,能够满足大规模数据处理和模型训练对 显 存容量及 带宽 的高要求。
Tensor Core : 拥 有 第四代 Tensor Core ,共有 5 7 6 个, 另 有 6 0M B
二级缓 存。FP 8 精 度的 Tensor Core 可提供高 达 4 000T F lops 的性能, 相比
A1 00 提 升了 6 倍 ,能够 显著 加速深度学习模型的训练和 推 理, 尤 其适合处理
大规模语言模型等复杂任务。
互 连 技 术 : 支 持 P CIe 5. 0 和 第 四 代 N VLink , 后 者 带 宽 提 升 至
900 GB /s , 相比 P CIe 5. 0 提 升七倍 , 相比 A1 00 也多了 一 半 ,可实现高效的
GPU 间通 信 , 最多 可连接 256 个 H 1 00 芯片 ,满足大规模集 群 计算的需求,
推动庞 大的 A I 语言模型、深度 推荐 系统等应用。
性 能 表 现 : FP64 / FP3 性 能 达 到 6 0T F lops , FP16 性 能 为
2 000T F lops , T F3 性能为 1 000T F lops ,分别是 A1 00 的 三倍左右 。在 A I 训
练方 面 , 配 备的 Transformer 引擎 可 使多专家 模型的训练速度提高 9 倍 ,大型
语言模型的训练速度提高 3 0 倍 , 推 理速度 也 提高 3 0 倍 。
功耗与散热 : H 1 00 计算 卡 的 P CIe 版功耗 高 达 700W ,S XM 版功耗相
对 较 低, 但也 需要良好的 散热 系统来保 证 其 稳 定运行。
应用场景 :适用于大规模 A I 训练,如训练 GP T 、B ERT 等大规模语言模
型,以及需要处理海量数据和 超 高 并 发量的 推 理任务,如大型数据中心、 云 服
务提供 商 等 场景 下的高性能计算和人工智能应用
GPU A100 :
o
原因 :A1 00 基于 N VIDI A A mpere 架构,支持 Tensor Core 技术,
在 多种精 度下 都 有 出色 的计算性能。其 多 实例 GPU( MI G)技术可 灵活 分 配 资源,提
高 利 用 率 。4 0 GB 和 80 GB 的 显 存 版 本能够满足不同规模的任务需求, 尤 其适用于大
规模深度学习训练和高性能计算任务。
o
配置逻辑 :一 般每台 服务器可 配置 - 8 块 A1 00 GPU, 搭配英特尔 至强
可扩展处理器,内存容量 根 据 GPU 数量和任务需求 配置 为 512GB - 1 T B 或更 高,存
储系统采用 SS D 和 HDD 组合,网络方 面 可 配 备 Infini B and 网 卡或 高速以 太 网网 卡 。
4、NVIDIA A100
架构与工艺 :采用 N VIDI A A mpere 架构,基于 台积 电 7nm 工 艺 制 造 , 拥 有
54 0 亿 个 晶 体管, 芯片面积 高 达 8 26 mm 。
核心参数 :A1 00 4 0 GB 版 本的 C U D A 核心数为 6 9 1 个,核心 频率 7 65 mhz
(base)/ 141 0mhz (boost); A1 00 80 GB 版 本 则 在 显 存容量和 带宽 等方 面 进行 了升级 。
显存配置 :提供 4 0 GB 和 80 GB H B M 2 e 两种显 存 版 本,其中 80 GB 版 本的 显
存 带宽达到 1 9 35 gb/s- 2 0 3 9gb/s ,能够 更 好地支持处理 超 大型模型和数据集 24 8 .
Tensor Core : 配 备 第 三 代 Tensor Core , 深 度 学 习 运 算 性 能 可 达
31 teraflops ,其深度学习训练和 推 理的性能 皆 为 N VIDI A Volta™ GPU 的 2 0 倍 ,支
持 广泛 的数学 精 度,可 针 对 每 个工作 负 载提供单个加速器。
互连技术 :支持 N VLink , 双向带宽 可 达 6 00 GB /s ,结合 N V S witch 技术,可
将多达 16 个 A1 00 GPU 互连,实现高效的 多 GPU 并 行计算,满足不同规模的加速
需求。
性 能 表 现 : FP64 峰 值 性 能 9 . 7T F lops , FP3
峰 值 性 能
1 9 .5 T F lops ,BF LO A T 16 Tensor Core 峰值 性能 312 T F,FP16 Tensor Core 峰值 性
能 312 T F, I N T8 Tensor Core 峰值 性能 624 Tops 。在 A I 训练中, 借助 Tensor
F loat (T F32 ) 精 度,可提供 比 N VIDI A Volta 高 2 0 倍 的性能, 若 使 用自 动 混 合 精 度和
FP16,性能可进一 步 提 升 倍 。
多实例 GPU 技术 :支持 多 实例 GPU 技术,一个 A1 00 GPU 最多 可 划 分为 7
个 独立 的 GPU 实例, 每 个实例在 硬件级 别 完 全 独立 , 并 独 自 拥 有高 带宽显 存、 缓 存和
计算核心,可 优 化 计算资源的 利 用 率 , 让 多 个用 户 或 应用能够共享 GPU 资源,提高资
源 利 用效 率 。
功耗与散热 :A1 00 4 0 GB 版 本的 最 大 热 设计 功耗 为 3 00w , 80 GB 版 本的 最 大
热 设计 功耗 为 4 00w ,通 常 采用 双插槽风 冷式 或 单 插槽 液 冷式 散热 。
应用场景 :作为数据中心 A I 训练的主力 GPU, 广泛 应用于各 种 规模的 A I 、数
据分析和高性能计算 场景 ,如 Microsoft A zure 云 服务、N VIDI A 的 S elene 超级 计
算机等,能够高效处理复杂 神经 网络和大规模 并 发 请 求, 无论 是模型训练 还 是 推 理任
务 都 有 出色 的 表 现。
(二)部署策略
1. 机柜布局 :
o
采用冷 热 通道 封闭 设计,提高制冷效 率 , 降 低能 耗 。服
务器 按照功 能与业务类型分区部署在不同机 柜 中,例如 将 计算密集
型服务器集中在一个区域,存储服务器集中在 另 一个区域,便于管
理与 维 护。
o
合理规 划 机 柜 内服务器安 装 位置 ,保 证 服务器 之 间有足
够 空 间用于 散热 与布 线 ,同时 考虑 机 柜 承 重能力,避免 超 重。 每台
服务器可 配置 - 8 块 GPU A1 00 , 根 据机 柜 电力供应、 散热 能力以
及网络 带宽 等 因素 确定机 柜 内服务器数量与 GPU 密度。
2. 集群构建 :
o
根 据业务需求构建不同的服务器集 群 ,如训练集 群 、 推
理集 群 、数据存储集 群 等。在集 群 内部,通 过 高速网络(如
Infini B and )连接服务器 节 点,实现 节 点间高速数据交互与协同计
算。
o
利 用集 群 管理 软 件 (如 K ubernetes 、S lurm 等)对集
群 资源进行统一 调 度与管理, 根 据任务 优 先 级 、资源需求等 因素 将
任务分 配到 合适的服务器 节 点上 执 行,提高集 群 整体资源 利 用 率 与
计算效 率 。
1、服务器硬件安装前准备
1. 机房环境检查与准备
o 确 认 机房的电力供应系统能够满足 GPU A1 00 服务器的高 功率 需求。A1 00
4 0 GB 版 本 最 大 热 设计 功耗 为 3 00W , 80 GB 版 本为 4 00W ,需计算服务器满载时的
总功率 , 并 确保机房的不间断电源(UPS)容量和 配 电 柜 分 配 的电力容量 充 足, 且 电
力 线 路 的 线径 和连接 质 量 符 合要求,以避免电力 瓶颈 和 线 路过热风 险 。
o 检查 机房的 散热 系统,确保 空 调 制冷量足够。由于 GPU 在高 负 载运行时 会产 生
大量 热 量,可采用 精 密 空 调 并 设 置 合理的 温 度和 湿 度 范围 ,同时 检查 冷 热 通道布 局 是
否 合理,确保服务器机 柜 的进 风 与 出风 顺畅 , 形 成良好的 空 气 对 流循 环。
o 检查 服务器机 柜 的 承 重能力, 考虑到 GPU A1 00 服务器自 身 重量以及满载时的
重量增加,确保机 柜每 U 位 的 承 重 符 合要求, 必 要时对机 柜 进行加 固或 重 新 评估 布 局 。
o 确 认 网络布 线已 完 成 且 符 合 Infini B and 或 ROCE 网络规 划 要求,包括 光纤 或 网
线 的 铺 设、连接 端口 的 预 留 和 标 识等,保 证 网络 线 路 的连通性和 稳 定性,为 后 续服务
器接入网络 做 好 准 备。
2、服务器硬件安装
1. 服务器上架
o 将选 定的服务器( 已 配置 好适合 A1 00 的 C PU、内存、存储等组 件 ) 小 心 搬 运
至机房 指 定机 柜位置 , 使 用 导轨 或 托 盘将 服务器 平稳 安 装 到 机 柜 上, 按照 规 划 的 U 位
高度进行 固 定,确保服务器安 装牢 固且位置准 确,便于 后 续 维 护和管理 操 作。
2. GPU A100 安装
o 打 开 服务器机箱 , 根 据 服务器主板的 PCIe 插槽 布 局 和 A1 00 显卡 的接 口 类型,
选择 合适的 插槽 进行安 装 。通 常 , 优 先 选择 靠 近 C PU 且带宽较 高的 P CIe 插槽 ,以 减
少 数据传输延迟。