金山云和 Solidigm™ 联合设计出一款面向 人工智能工作负载的创新型对象存储解决方案

金山云是中国知名的独立云服务提供商,总市值高达数十亿人民币。1  该公司提供高度安全、可靠的分布式云存储服务,以低成本提供大容量存储。

TDB
TDB

人工智能(AI) 在全球范围内引发了一场革命,以前所未有的方式改变了各领域,同时对存储架构提出了新的要求。数年来,金山云一直在这一领域深耕,开发了一整套云计算服务,包括金山云云存储平台,以及包括 WPS Office 在内的 WPS 办公软件。金山云在最新的对象存储解决方案 KS3 Extreme 中采用了 Solidigm 固态硬盘。全新的 KS3 Extreme 可根据数据量动态扩展带宽能力。固态硬盘容量越大,系统可提供的带宽也越大。

通过将机械硬盘替换为 Solidigm 固态硬盘,金山云把存储带宽提升到超过 1 TB/秒 (Tbps) /PB,比之前高 100 多倍。这将为人工智能内容生成 (AIGC)、动画渲染、高性能计算 (HPC) 等工作负载带来巨大优势。

Solidigm 提供广泛的固态硬盘产品系列,帮助我们针对要求苛刻的应用程序(如人工智能)优化架构。现在,我们可以实现性能、成本和效率的完美平衡。
甘红星,金山云对象存储解决方案工程资深研发专家。
金山云 KS3 极速型 vs. 标准对象存储以及 PL1 和 PL2。

图 1.金山云存储架构演变

金山云 KS3 Extreme 的优势

  • KS3 Extreme 根据容量大小提供 3 种性能级别。PL1、PL2 和 PL3 级别的带宽分别为 200 Gb/秒 (Gbps) /PB、500 Gbps/PB 和 1 Tbps/PB。
  • KS3 Extreme 重新设计了垃圾回收机制,采用了零成本空间回收技术,从而改善了固态硬盘的性能和寿命。
  • KS3 对线程调度进行了大量优化,存储速度和效率得到了显著提升。通过优化内部调度模块,有效防止长尾任务对请求的阻塞,从而大幅缩短响应时间。

图 1 显示金山云 KS3 新老架构的对比。在之前的设计中,他们在 S3 服务前面部署了一个文件系统高速缓存,因为它不支持密集型应用(例如 人工智能)所需的高吞吐量。金山云需要一种更高效的新型架构,以解决该瓶颈。借助新的全闪存设计,金山云客户能够直接将对象存储连接至 S3,因为对象生命周期是在 S3 内部设置的。这种新设计更好地平衡了容量、性能和成本。

金山云 S3 与金山云 KS3 极速型服务器设计对比。

图 2. 金山云 S3 与 KS3 Extreme 服务器设计对比

业务挑战

当今的人工智能工作负载使用更大的数据集创建了更大的模型。为了简化人工智能的部署和管理,金山云创建了一款开箱即用的解决方案,用于运行各种人工智能工作负载。

在特定的人工智能场景中,高 I/O 吞吐量对于大模型训练至关重要。想要高效训练人工智能模型,提升存储速度势在必行。因为这些系统需要较高的每秒输入/输出操作数 (IOPS),以便实时处理大量数据与执行各种计算。 

以具有 1750 亿参数的大型数据模型为例,假设训练数据量为 40TB,如果使用标准对象存储,按照 20Gbps/PB 的吞吐能力计算,加载所有训练数据至少耗时 535 分钟。 

KS3 Extreme Speed 对象存储的吞吐能力高达 1 Tbps/PB,最少可以在 11 分钟内完成所有数据的加载,3速度提升了 48.6 倍。这仅仅是一个示例。其它优势包括:

  • 满足高性能灵活扩展需求:数据中心必须满足深度学习训练及其他应用对 IOPS 的高要求。这些应用通常包含众多小型文件,需要以极低的时延访问数据。这对整个存储系统提出了一系列挑战,包括高 IOPS、出色的并发性、可靠性、灵活性和可扩展性,以解决数据快速增长所引发的复杂性和性能问题。
  • 满足数据生命周期管理需求:以典型的人工智能训练工作流程为例,数据收集、数据清洗和标记流程需要处理大量非结构化数据,例如图像或文本。此类数据对存储空间和并发顺序读写访问的要求比较高,并且成本不菲。
  • 即使遇到故障也不减速:借助 KS3 Extreme Speed,在机器出现故障时,组织可以更好地应对系统运行挑战。这是因为它包含 4 个重要的硬件故障排除系统,它们能够减少硬件故障损害,同时确保系统在故障发生后运行速度如常。

为什么说 Solidigm 固态硬盘是合适的存储解决方案

面对人工智能等新兴服务带来的数据压力,金山云必须及时更新自己的硬件。为了改善存储 I/O 性能,金山云最初想到的一个行之有效的方法是替换掉 SATA 固态硬盘和 SATA 机械硬盘。但是经过进一步评估,他们认为这不是最具成本效益或者最高效的存储。然后,金山云发现全部采用 TLC NVMe 固态硬盘也能满足 I/O 性能要求。

然而,Solidigm 团队开展了更深入的研究,帮助金山找到了一种更好的存储解决方案,即 QLC 固态硬盘。Solidigm QLC 固态硬盘的每单元比特数比 TLC 多 33%,可实现 3x8 存储组合,从而降低总体运营成本。Solidigm QLC 固态硬盘提供从 7.68TB 到 60.72TB 不等的规格,其耐用性和性能可媲美 TLC 固态硬盘。 

甘红星表示:“我们和Solidigm的同事进行了多轮深入的沟通,以更好理解彼此系统的特性。这也帮助我们对NVMe的机制有了更深入和全面的理解,在系统设计时能够更有效地降低写放大,提升整体的吞吐和稳定性。”

金山云和 Solidigm 的协作颇有成效。Solidigm TLC 和 QLC 固态硬盘均可以改善金山对象存储服务的功能,并帮助其降低运营成本。Solidigm 还把质量和可靠性推向新高,他们的客户服务团队能够为金山云提供更有效的支持。 

甘红星表示:“金山云将不断加强基于全闪介质的技术和产品能力,结合 QLC 技术的发展,以成本为切入点,打造高性能、高性价比对象存储产品,为各个民用行业的用户创造更大的使用价值。” 

 

作者简介

Solidigm 产品营销经理 Jeniece Wnorowski 在数据中心存储解决方案领域拥有 14 年以上的经验。Jeniece 最初在英特尔从事技术营销工作,后来加入了 Solidigm,并继续与多家公司和合作伙伴一起推广数据中心固态硬盘创新技术。工作之余,Jeniece 喜欢与孩子共享欢乐时光,参加柔道训练,探索户外活动。 Wayne Gao 是一名存储解决方案架构师兼首席工程师,曾参与从 PF 到 Alibaba 商业版的 CSAL 项目。Wayne 曾供职于 DellEMC ECS 全闪存对象存储团队,拥有 20 余年的存储开发经验,申请了 4 项美国专利,发表了 1 篇 EuroSys 论文。

[1] https://www.macrotrends.net/stocks/charts/KC/kingsoft-cloud-holdings/total-assets

[2] https://mp.weixin.qq.com/

[3] https://mp.weixin.qq.com/