将圆周率 (π) 计算至小数点后 314 万亿位
究竟需要什么?
StorageReview 成功将圆周率 (π) 计算至小数点后 314 万亿位,刷新世界纪录,但其目标绝非仅仅为了开创记录。这是一项有意设计的极端工作负载,旨在对现代服务器的存储系统进行极限压力测试,并回答一个很现实的问题:单个系统是否能持续数月不间断进行 PB 字节级别的 I/O 操作?
在一台 Dell™ PowerEdge™ R7725 服务器上连续计算了 110 多天后,该实验为上述问题给出了肯定的答案——前提是存储架构必须能够提供持续的性能和一致性,而不仅仅是短时间的峰值性能。
测试概览
I/O 马拉松:持续三个多月的高强度混合读/写压力
单台服务器配备超过 2.1 PB 的可用闪存容量
适用于长时间运行的高性能计算 (HPC) 和 AI 作业的关键要点:只有一致性才能确保长期运行后得出结果
为了构建所需的存储架构,StorageReview 搭建了一套包含 40 块美光 6550 ION SSD 的存储系统,每一块 SSD 均为 E3.S 外形规格,可用容量为 60TB。理解该大规模存储系统(无论是 SSD 数量还是总容量)背后的“原因”,对于理解该纪录在现实当中的意义至关重要。
为何该任务需要超过 2 PB 的闪存容量?
要计算位数如此之长的圆周率,重点不在于存储最终结果。与计算过程所需的中间数据相比,最终结果本身所需的存储空间相当小。
由于最后得出的圆周率高达 314 万亿位,该测试所用的应用程序 y-cruncher 需要巨大的暂存空间,以便:
存放用于 FFT 密集型数学运算的大型临时数组
频繁进行全面状态检查,以确保持续数周的工作不会前功尽弃
存放验证数据,确保在长达数月的运行过程中数据准确一致
存放计算过程中使用的多精度中间值
为满足这些要求,StorageReview 在系统中配置了超过 2.1 PB 的可用闪存容量。
40 块美光 SSD 中的 34 块被分配给 y-cruncher,作为暂存空间,形成高带宽工作层
剩余的 6 块 SSD 配置为 RAID10 系统,用于存储最终计算结果
峰值时,该工作负载需要多达 1.43 PiB 的存储空间,单个检查点占用的存储空间高达数百 TB。该容量并非过度配置;而是为了安全、高效地完成计算所必需的容量。
圆周率计算的特点:持续的 I/O 操作
该测试并非一次旨在展示峰值性能的短时间基准测试。圆周率计算任务对存储系统持续施加压力,长达三个多月,期间完全没有停机或恢复的机会。
该工作负载呈现出先进高性能计算和 AI 环境所共有的特征:
持续高带宽读写操作
长时间持续高强度写入操作
要求性能可预测,对突然出现的大量延迟容忍度极低
操作风险——存储故障可能导致数周的工作成果付诸东流
在整个运行期间,该系统始终保持在线状态,从未因任何故障而需要恢复运行。
这一点至关重要,因为许多生产工作负载的失败并非源于峰值性能不足,而是源于系统随时间推移而产生的不稳定或不一致。长时间运行的作业会放大存储堆栈中的微小问题。
单服务器架构中的高密度 NVMe™
长期以来,具有上述特征的工作负载通常会促使团队采用分布式存储系统或多节点集群,以获得足够的容量和聚合 I/O。
然而,StorageReview 仅使用单台服务器机箱就完成了全部计算。
通过在一台 Dell™ PowerEdge™ R7725 服务器中部署 40 块大容量 NVMe SSD,该系统实现了:
无需外部存储阵列即可拥有 PB 级容量
总带宽足以支撑长达数月的计算
一种简化的运行模型,组件和故障域更少

这里的关键不在于每个工作负载都需要在一台服务器上配备数十个硬盘。相反,该测试凸显了现代高密度 NVMe 存储如何改变人们在系统架构上的权衡取舍。某些情况下,过去需要采用横向扩展方案来处理的工作负载,现在可以通过纵向扩展方案来解决。
与现代 HPC 和 AI 工作负载的相关性
尽管该工作负载较为特殊,但在运行过程中观察到的存储行为与某些实际生产环境中的需求高度吻合,这些环境包括:
大规模 AI 训练:经常需要生成 TB 级别的检查点数据,且存储性能会直接影响训练时间
推理管道和特征存储库:可预测的延迟比峰值吞吐量更为重要
科学模拟与建模:任务可能运行数周或数月,重启成本高昂
高级分析管道:大型工作数据集必须靠近计算所在位置
在上述每种情况下,存储的一致性以及随时间推移的耐久性都会直接影响任务的完成、系统利用率以及操作风险。
该记录中的关键技术要点
该测试的目的不仅仅是为了创造一个数学上的里程碑。它展示了当今以存储为中心的计算所涉及的若干现实情况:
PB 级暂存工作负载可完全在 NVMe 上运行
大容量 SSD 能承受极端 I/O 压力,不会出现性能骤降
如今的单节点架构能够处理以往仅能由集群处理的工作负载
性能的一致性和耐久性与原始带宽同样重要
这些结论表明,存储系统日益重要,决定着先进计算工作负载的可行性和效率。
对数据中心战略与基础设施规划的影响
该测试不仅达成了一个技术里程碑,更凸显了存储技术如何日益深刻地影响着现代数据中心的运营成效和架构选择。
对企业和 IT 部门领导者而言,最重要的关注点并非峰值吞吐量,而是大规模运行时可预测的性能。长期运行的工作负载,无论是 AI 训练、大规模分析还是科学计算,都会放大效率低下问题和故障所造成的后果。当存储成为瓶颈时,昂贵的计算资源便会闲置,成本随之攀升,并导致交付延宕。
该测试表明,大容量 NVMe 能够在较长时间内持续为计算提供数据,可消除存储瓶颈,减少意外情况,降低运营风险。
规划基础设施升级时的考虑因素
当团队在规划针对 AI 及其他数据密集型工作负载的升级时,以下几项评估标准变得越来越重要:
持续的吞吐量而非突发性能
短时间的基准测试很难代表实际工作负载。在混合读写负载下持续数月的一致性,比在几分钟内达到的峰值数据更为重要。
每台服务器的性能密度
将 PB 级容量和 I/O 整合到单一系统中的能力,对功耗、空间、网络以及管理开销都会产生影响。
延迟可预测性与尾部行为
平均性能并不能全面反映运行情况。异常的延迟可能会导致流程停滞、检查点推迟,进而导致任务失败。
在稳定负载下的耐久性和可靠性
长时间运行的任务会暴露出在短时间测试中无法发现的问题。随着利用率趋于稳定,存储系统必须始终保持足够高的性能和数据完整性。
简化运营
减少对外部存储架构或大型集群的依赖,可缩小故障的影响范围,并简化部署和扩展。
根据数据中心战略选择存储方案
从该测试中,我们可以获得的一个更广泛的启示是:现代 NVMe 存储让我们能够重新思考如何降低复杂性。在某些场景下,通过在更少的节点上采用更高的存储密度来实现纵向扩展,可以消除横向扩展的需求。这有助于实现:
更少的服务器和互连设备
单位工作量的功耗和散热需求更低
简化的自动化与生命周期管理
更快的部署和恢复时间
这并非意味着不再需要分布式架构,只是为基础设施团队提供了更多切实可行的设计方案。
随着 AI 和分析工作负载的规模不断扩大,持续时间不断加长,存储相关决策将产生越来越大的影响,受影响的方面不仅包括性能,还包括成本效益、韧性以及组织响应速度。
总结
314 万亿位圆周率的计算容不得丝毫差错。该系统在持续负载之下连续运行了 110 多天,按照常理,应该能暴露出其在性能、耐久性或可靠性方面的问题。
然而,没有出现任何问题。
相反,测试结果表明,美光大容量 NVMe SSD 能够提供可持续的性能、运行稳定性和性能密度,其表现足以显著影响基础设施的设计选择。
本文探讨的主题并非圆周率,而是:当存储系统专为支持超大规模、长期运行的数据密集型工作负载而设计时,能够实现哪些可能,且不会出现任何问题。

在线留言询价
| 型号 | 品牌 | 询价 |
|---|---|---|
| CDZVT2R20B | ROHM Semiconductor | |
| MC33074DR2G | onsemi | |
| RB751G-40T2R | ROHM Semiconductor | |
| TL431ACLPR | Texas Instruments | |
| BD71847AMWV-E2 | ROHM Semiconductor |
| 型号 | 品牌 | 抢购 |
|---|---|---|
| STM32F429IGT6 | STMicroelectronics | |
| BU33JA2MNVX-CTL | ROHM Semiconductor | |
| TPS63050YFFR | Texas Instruments | |
| IPZ40N04S5L4R8ATMA1 | Infineon Technologies | |
| BP3621 | ROHM Semiconductor | |
| ESR03EZPJ151 | ROHM Semiconductor |
AMEYA360公众号二维码
识别二维码,即可关注
请输入下方图片中的验证码: