MLPerf

吞吐量、IOPS 和延迟 Q&A

引用自：https://mp.weixin.qq.com/s/Yz2lkYzimfFC-85KBUq_zQ

吞吐量、IOPS 和延迟是三个术语，通常称为存储性能指标。

SNIA 网络存储论坛（NSF）通过现场网络研讨会“您想知道的有关存储但太自豪而无法询问的一切”

带回了我们广受欢迎的网络研讨会系列“您想知道的有关吞吐量、IOPS 和延迟但又太自豪而无法询问的一切”。

问：讨论 RoCEv2 中的拥塞和机制（DCQCN 和延迟更改控制）比 FC SAN 中的传统BB_credit处理更有趣。

答：选择FC的BB_Credit机制是为了举例，但所讨论的许多概念，如超额订阅、拥塞、拥塞扩散等，也适用于其他传输协议。例如，RoCE 可以从使用显式拥塞控制机制（如 DCQCN）或 PFC 和 ECN 的组合中受益，然后还有特定于供应商的方法（如 RTTCC），可用于最大程度地减少对显式拥塞控制需求的依赖。

问：NVMe 是否具有或需要 SCSI ALUA 的等效产品？

答：是的，SCSI 的 ALUA 的 NVMe 等效项称为非对称命名空间访问（ANA）。

问：CXL 是否会从根本上改变 IO 性能，CXL 将在多长时间内普及？

答：CXL 在 PCIe 上运行，因此会受到许多相同的限制，尤其是距离。大多数 CXL 用例将主要适用于机架规模，因此我们预计它不会用于计算节点和外部存储之间的 IO。

问：人们是在 AI/ML 用例的各个阶段（例如，数据收集和训练）使用单个存储系统，还是使用不同的存储系统（例如，一个存储系统用于数据收集阶段，另一个存储系统用于 AI/ML 训练）？

答：通常，引入和检查点使用相同的存储系统。无论哪种情况，高性能都是关键，因为系统在这两个阶段的数据传输上花费的时间越多，GPU 处于空闲状态的时间就越长，因此训练完成的时间就越长。

问：在日益增长的超融合（“无共享”）架构中，存储分布在不同的节点上，提高 IOPS 的最佳方法是什么，特别是对于视频和语音等实时响应时间很重要的应用程序？

答：使用横向扩展方法（即添加提供存储服务的节点）是提高此类部署的整体系统性能的最常见方法。确保网络大小合适且不拥塞，并确保每个节点中都有适当的计算资源会有所帮助。

问：为什么小文件 I/O 开销这么大？与几 KB 或更大的文件相比，元数据通常仍然要小得多。

答：对于任何文件传输，元数据在数据传输阶段中只占很小的百分比，对于任何文件大小来说，元数据的百分比大致相同，但小文件需要相同数量的主机交互来启动和完成 I/O。这种操作命令的主机交互，然后是设备返回完成通知，这会增加小文件传输的开销百分比。例如，如果文件只有 128 个字节长，但有一个 32 字节的请求和一个 32 字节的完成，则开销是文件传输所需时间的 33%。对于 4 KB 文件传输，此开销将减少到传输文件所需时间的 1.5%。

问：SPC 1/2 是否仍是 IO 性能的相关基准？如果不是，今天的标准是什么？

答：是的，存储性能委员会基准 SPC 1/2 仍然适用，并且会继续更新。您还可以使用 Vdbench 和 FIO 等工具进行性能表征。也就是说，要使用的最佳基准测试是与您期望在正在测试的基础架构上运行的应用程序最匹配的基准测试。随着 AI 变得越来越重要，您还可以查看 MLPerf。

吞吐量、IOPS 和延迟 Q&A - SNIA on Network Storage — Throughput, IOPs, and Latency Q&A - SNIA on Network Storage (sniansfblog.org)

Rainy2k

系统论文中的评价指标

MLPerf

吞吐量、IOPS 和延迟 Q&A