Alluxio 作为全球领先的 AI 缓存解决方案提供商,为基于 GPU 的 AI 工作负载提供最快速的缓存。它的可扩展架构支持数万个节点,能够显著降低存储带宽消耗。全球大型语言模型 (LLM) 的成功在很大程度上归功于 Alluxio 在解决 AI 存储挑战方面的前沿技术。
"Solidigm 与 Alluxio 联手提供卓越的分布式 AI 缓存解决方案。将 Solidigm D5-P5336 用作读取缓存,并使用 D7-PS1010 进行检查点写入,再结合 Alluxio 的低开销解决方案,为大规模 AI 工作负载提供最佳的成本与性能组合。我们对该解决方案进行了优化,以充分利用 Solidigm D7-PS1010 Gen5 TLC 固态硬盘的完整写入带宽和 Solidigm D5-P5336 Gen4 QLC 的读取带宽,同时在 TLC 和 QLC 固态硬盘上保持 1.02 的写放大系数。我们希望共同努力,继续为客户的人工智能需求提供成本和性能优化、低开销的解决方案,”Solidigm 战略规划和营销高级副总裁 Greg Matson 表示。
DORA(Decentralized Object Repository Architecture 的缩写)是 Alluxio 的下一代架构。作为分布式缓存存储系统,DORA 提供低延迟、高吞吐量和成本节约优势,同时为人工智能工作负载提供高性能数据访问层。DORA 利用去中心化存储和元数据管理,实现更高的性能和可用性,同时支持可插拔的数据安全与治理,从而提升大规模数据访问的可扩展性和管理效率。
该架构由四个关键组件组成:服务注册表、调度程序、客户端和工作程序。这些组件协同工作,负责服务发现、分布式负载调度和数据存储等任务,同时确保整个系统的最佳性能。
DORA 采用经过实战验证的页面存储模块进行缓存存储,实现对大文件中小到中等读请求的更精细化缓存。这种可靠的页面存储技术已经在 Presto at Meta、Uber 和 TikTok 等应用中得到了验证。DORA 的精细化缓存将读放大系数减少了 150 倍,并将文件位置读取性能提高了最多 15 倍。
页面数据存储 采用日志文件系统,并将数据组织为两个级别的目录,使用固定的、大尺寸的块文件。所有写操作都附加到这些块文件中,当其中的对象被标记为删除时,文件本身只在不再需要时才被移除。这一设计确保了即使在使用 PCIe 5.0 TLC 固态硬盘时也能实现最佳性能,同时保持固态硬盘写放大系数(WAF)为 1,从而最大限度地提高固态硬盘的耐用性。
例如,在使用 Alluxio 的读取缓存与 QLC 固态硬盘时,存储引擎充分利用 QLC 的耐用性,而不会产生任何内部或垃圾收集 WAF,确保 QLC NVMe 固态硬盘的高效运行。
DORA 将元数据分发给每个工作程序,以确保元数据始终是可访问和可用的。DORA 采用了两级缓存系统来优化元数据访问。第一级缓存是内存缓存,它将元数据条目存储在内存中。该缓存具有可配置的最大容量和生存时间(TTL)设置,以控制过期时间。第二级缓存是持久缓存,它使用 RocksDB 在磁盘上存储元数据条目。持久缓存的容量不受限制,具体取决于可用的磁盘空间。它采用基于生存时间(TTL)的缓存驱逐策略,避免了主动同步或失效操作。存储的元数据通过完整的 UFS 路径(如 Page Store)进行哈希处理。
这种内存和持久缓存的组合确保了元数据的高可用性和可访问性,同时实现了系统资源的高效利用。元数据的去中心化避免了由主节点集中管理元数据所导致的瓶颈问题。由于每个 DORA 工作程序能够存储多达 3000 万到 5000 万个文件,该系统可以支持包含数十亿个文件的大规模数据密集型应用程序。
Solidigm 已验证内存元数据设计与 RocksDB 的结合可提供最佳的元数据存储解决方案。该设计充分利用 PCIe 4.0 QLC 固态硬盘(读 7GB/s,写 3GB/s)和 PCIe 5.0 TLC 固态硬盘(读和写 14.5GB/s)的读写速度。此外,RocksDB 使用基于跳跃表的写缓冲区将许多小的写入合并为更大的顺序 2MB 写入,从而提高了写入效率,有助于最小化 SSD WAF,进一步增强固态硬盘的耐用性。
存储服务器― Intel Gen5 | |
---|---|
操作系统 | Fedora Linux 40(服务器版本) |
内核 | 6.8.5-301.fc40.x86_64 |
CPU Model | Intel(R) Xeon(R) 6740E 2 x 插槽 @2.4GHz,96 内核/每插槽 |
NUMA 节点 | 2 |
已安装 DRAM | 256GB (16x16GB DDR4 3200MT/s) |
巨页大小 | 2048 kB |
驱动器概要 | 2x Gen5 TLC Solidigm D7-PS1010 8TB FW 修订:G70YG030 PCIe Gen5x4 2x Gen4 QLC Solidigm D5-P5336 60T |
FIO | 3.37 以上或最新版本 |
Alluxio | AI 版本 |
Alluxio 负载摄取缓存固态硬盘 | ./bin/alluxio 作业负载 --路径文件:///mnt/qlc/alluxio/data --提交 |
Alluxio fuse 读 fio | fio -engine=libaio -bs=256K --rw=read -group_reporting -directory=/mnt/fuse/fusedir/test1/multiple_files -name=read_test -direct=1 -numjobs=16 --nrfiles=1 -openfiles=1 -size=16G --alloc-size 1024000 fio -engine=libaio -bs=1024K --rw=read -group_reporting -directory=/mnt/8Greadfuse/alluxiofuse/local -name=wayne_read_test -direct=1 -numjobs=128 --nrfiles=1 -openfiles=1 -size=4G --alloc-size 1024000 --readonly |
文件系统 | XFS |
在最近的一项实验中,Alluxio 在使用英特尔 Gen5 BNC 存储服务器搭载 Solidigm D7-PS1010 和 D5-P5336 固态硬盘的环境下,展示了其在数据摄取和读取性能方面的卓越能力,特别是在 GPU 扩展方面。值得注意的结果包括:
为了快速部署并展示 Alluxio 存储引擎的强大性能,我们设置了一个单节点测试环境 值得注意的是,Alluxio 的最大优势在于其能够利用主机端的分布式复制缓存,随着 GPU 的扩展而扩展,并显著降低南北向存储带宽的开销。即使在单节点配置下,Alluxio 也表现出超高的效率,尤其是在搭配高性能 NVMe 固态硬盘时。对于此测试,我们将缓存配置为 PCIe 5.0 TLC 或 PCIe 4.0 QLC,而底层文件存储 (UFS) 使用 PCIe 4.0 QLC。
Alluxio 负载测试 | 缓存固态硬盘写 BW(MB/s) | UFS 读取 BW (MB/s) | Cache SSD WAF |
---|---|---|---|
Solidigm D7-PS1010 | 6823 | 6923 | 1.02 |
Solidigm D5-P5336 | 3341 | 3613 | 1.02 |
1. Alluxio 的缓存负载引擎效率极高,能够充分利用 UFS QLC 的最大读取带宽,并将数据摄取到 PCIe 5.0 TLC 缓存固态硬盘中。即使 UFS 支持 10GB/s 的读取带宽,Alluxio 也可以轻松饱和 Solidigm D7-PS1010 的 9.3GB/s 写带宽。
2. Alluxio 的页面缓存存储引擎建立在 XFS 日志文件系统上,已使用 Solidigm Alluxio FIO 模拟器进行了严格的寿命测试。结果表明,无论使用 TLC 还是 QLC 固态硬盘, Alluxio 都实现了 1.02 的写放大系数(WAF)。这种接近理想的写放大系数(WAF)为 1 的表现,最大化了固态硬盘的性能和耐用性,为最终用户提供了最佳的使用体验。
Alluxio Fuse 测试 | 缓冲固态硬盘读取 BW(GB/s) |
UFS 读取 BW (GB/s) |
---|---|---|
Solidigm D7-PS1010 | 14.8 | 0 |
FUSE 的读取开销是最小的。在进行 FUSE 读取操作时,如果 SSD 缓存命中率达到 100%,并且绕过 DRAM 页面缓存,FUSE 框架几乎可以饱和单个 PCIe 5.0 固态硬盘的读取带宽,达到 14.8GB/s。
Solidigm 61.44TB D5-P5536 顺序写 PBW | 5 年平均 | 写 BW 支持 |
---|---|---|
213 | 50% | 2900MB/s |
对于寻求高容量缓存解决方案的客户来说,Solidigm 的 61.44TB QLC 固态硬盘是一个理想的选择。Alluxio 的存储引擎对写放大系数(WAF)非常友好,作为以读取为主的缓存系统,其写入操作极少,因此 QLC 闪存非常适合作为其读取缓存路径。得益于 Alluxio 的高效设计,我们可以基于顺序写入总写入量(PBW)为 213PB 来估算 QLC 缓存设备的耐用性,这意味着 Solidigm 支持写入高达 213 PB 的数据。即使在 5 年周期内以 50% 的使用率(已是较高的阈值)计算,QLC 仍能支持 2900 MB/s 的写带宽,几乎达到其最大值。此外,QLC 每块 SSD 可提供高达 6GB/s 的随机读取带宽,使构建高性价比的 Alluxio AI 缓存系统成为可能。
对于读取缓存,Solidigm D5-P5336 61.44TB QLC 固态硬盘 可提供卓越的性能和可伸缩性。对于检查点写入,PCIe 5.0 Solidigm D7-PS1010 提供世界级的写性能。
Alluxio 工程副总裁 Xuan Du 表示:“我们与 Solidigm 团队密切合作,验证了将 Alluxio 的分布式缓存技术与 Solidigm 固态硬盘和 NVMe 驱动器联合用于 AI 模型训练工作负载的性能优势。通过紧密合作,我们进一步优化了 Alluxio,利用 Solidigm 驱动器最大限度地提高了大规模 AI 工作负载的 I/O 吞吐量。”
我们期待与 Solidigm 继续加深合作,共同为我们的客户提供高性能、经济高效的解决方案,以构建、训练和部署大规模人工智能模型
Xuan Du
Alluxio 工程副总裁
Alluxio 和 Solidigm 的合作成果表明,Solidigm 的 TLC 和 QLC 固态硬盘能够显著提高 Alluxio 的服务水平,同时降低运营成本。Solidigm 在质量和可靠性方面设立了新的标准,并拥有一支专门的客户服务团队,为 Alluxio 提供了卓越的支持。
Wayne Gao 是 Soldigm 的首席工程师和解决方案存储架构师。他从路径探索到商业发布,全程参与了 Solidigm 云存储加速层(CSAL)的开发工作。Wayne 拥有超过 20 年的存储开发经验,持有 4 项美国专利,并在 EuroSys 上发表过论文。
Yi Wang 是 Solidigm 的现场应用工程师。在加入 Solidigm 之前,他曾在英特尔、Cloudera 和 NCR 担任技术职务。他拥有“思科认证网络专家”、“微软认证解决方案专家”和“Cloudera 数据平台管理员”认证。
Jie Chen 是 Solidigm 的技术营销架构师,负责云客户的生态系统支持,特别是在数据放置模式和存储 AI 方面。在加入 Solidigm 之前,Jie 曾在多种闪存和持久性内存产品的应用工程师、质量与可靠性工程师、产品开发工程师和项目经理等技术岗位上工作。
所有产品计划、路线图、规格和产品说明如有更改,恕不另行通知。
本文中的任何内容均无意作出任何明示或默示的担保,包括但不限于关于适销性、适合特定目的及不侵权的默示保证,或在履行合同、交易过程或贸易惯例中产生的任何担保。
本文所述产品可能存在设计缺陷或错误,已在勘误表中注明,可能会使产品偏离已经发布的技术规范。可应要求提供最新特征勘误表。
请在下单之前联系您的 Solidigm 代表或经销商以获取最新规格。
如需本文档、其中引用的文档或其他 Solidigm 文献的副本,请联系您的 Solidigm 代表。
所有此处涉及的产品、计算机系统、日期和数字信息均为依据当前期望得出的初步结果,可随时更改,恕不另行通知。
Solidigm 可随时在不另行通知的情况下修改规格和产品说明。设计者不应依赖任何产品所不具有的特性,设计者亦不应依赖任何标有“保留权利”或“未定义”的说明或特性描述。Solidigm 保留未来对其进行定义的权利,对于任何因未来更改引起的冲突或不兼容性,Solidigm 概不负责。此处提供的信息可随时改变而毋需通知。本信息不表示设计已经定型。
测试记录特定系统上具体测试中的组件性能。硬件、软件或配置的任何不同都可能影响实际性能。当您考虑购买时,请参考其他信息资源以评估产品性能。
性能结果基于截至配置中所示日期的测试,并且可能无法反映所有公开的更新。详情请参阅配置披露。没有任何产品或组件能保证绝对安全。
针对 Solidigm 或英特尔编译器或其他产品的 Solidigm 或英特尔优化可能无法为非 Solidigm 或英特尔产品提供相同程度的优化性能。 Solidigm 或英特尔技术可能需要启用硬件、软件或服务激活。
您的开支和结果可能会有所不同。
Solidigm 不对第三方数据承担任何控制或审计的责任。您应参考其他信息来源以评估准确性。
一些结果是使用 Solidigm 内部分析、架构模拟或建模进行评测或模拟的,仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。
本文中的结果均为初步结果,仅供参考。所述数值和声明既非最终版本,亦非官方内容。
© Solidigm。“Solidigm”是 SK hynix NAND 产品解决方案公司 (d/b/a Solidigm) 的商标。“英特尔”是英特尔公司的注册商标。文中涉及的其他名称及商标属于各自所有者资产。