与 Supermicro 的存储开发总监 Wendell Wenjen 和 Supermicro 产品存储总监 Paul McLeod 一起,了解 Solidigm 如何与 Supermicro 合作推动 AI 存储在满足客户对 AI 数据流水线需求方面的作用。
在本期 AI Field Day 视频中,Wendell 和 Paul 讨论了 AI 应用面临的挑战和解决方案,以及高密度存储如何帮助解决这些挑战。他们还重点介绍了利用大容量存储处理 AI 数据流水线各个阶段的必要性,并谈及 Solidigm 固态硬盘如何帮助应对这些挑战和提供存储解决方案。
在此处进一步了解有关 Solidigm 固态硬盘及其在 AI 解决方案中的作用。
Supermicro 存储市场开发总监 Wendell Wenjen 和 Supermicro 存储产品总监 Paul Mcloed
Wendell Wenjen:感谢 Solidigm。感谢您邀请我们参加 AI Field Day。我们在我们的服务器中采用 Solidigm 固态硬盘:我们的存储服务器以及 GPU 加速服务器。Paul 将对此进行介绍。我是 Wendell Wengen。是 Supermicro 的存储市场开发总监。除我以外,到场的还有 Paul McLeod,我们的存储产品总监。
今天,我们将讨论一些挑战。这些是我们目前比较关注的问题。今天上午我们已经就软件展开了许多讨论。我们已经谈到过介质 - 闪存。现在让我们来看看运行所有这些 AI 训练的系统,特别是其中的存储部分。
具体来说:AIOps 和 MLOps 面临的存储挑战、传统存储方法的一些问题,以及我们已经在许多多 PB 级部署中与客户一起采用的方法,最后我们将讨论这些部署的效果。
让我先来简单介绍一下 Supermicro。如果您还没有听说过我们,我们是一家服务器、存储、GPU 加速服务器和网络公司。一切都通过全集成机架实现。我们公司距离这里只有 5 英里之遥。今天会议现场在圣克拉拉市。而我们公司位于圣何塞,距离此处只有 10 分钟的路程,我们的大部分机架集成制造都在那里进行。
有关我们公司,值得注意的一点就是:从去年到今年,我们的收入大约翻了一番。我在服务器和存储领域已经从业 20 年之久。我经历过的唯一一次先例发生在 96 年我加入英特尔服务器事业部之时。这只是个开始。
我们的 Pentium Pro 在大约一年的时间里从零增长到 10 亿美元。因此,这对于所有 AI 赋能系统的供应商来说,都是一个非常激动人心的时刻,还有像 Solidigm 这样的介质公司,以及我们合作方中提供文件和对象存储解决方案的软件公司。
有关我们,还有一点。我们的身份不仅限于硅谷的本地制造商。我们的业务还延伸至台湾、荷兰和其他地区,单月产能高达 5000 部经软件测试的集成式机架。我们可以在客户部署设备的地点附近进行集成。因此,我们可以实打实地在从接到订单之时起的短短几周内完成这些系统交付。
观众 Ray Lucchesi:Wendell,您好,您认为贵司在一年内收入翻番的原因是什么?这背后的驱动因素是什么?
Wenjen:是的,这是个很好的问题。大约两个季度之前,我们在业绩报告电话会上公布,我们有一半以上的收入来自 AI 相关业务。
当然,我们的存储和服务器制造业务规模也很大。毕竟我们在成立之初是一家服务器公司。而我们今天在这里一直在谈论的 AI 部署趋势正在推动我们的增长,就像传统业务一样;我们向 CSP 市场、企业市场销售,而且我们对于上述所有产品,都在全球范围内布局有渠道业务。
但我认为我司的独特之处在于,我们的员工中有约一半由从事系统设计开发的工程师构成。而且我们是提供生成式 AI 和大语言模型平台的头部公司。这部分业务的同比增幅高达 500%,着实令人惊叹。
除此之外,我司开发产品的方式也非常独特,我们称之为构建模块解决方案。我们开发的模块化组件可在不同配置中复用。比如主板、机箱和电源,但实际上比这更复杂,它们基本上可以组装到丰富多样的解决方案中,几乎涵盖所有定制类型,包括存储、计算和 GPU 加速计算。
这是我们产品开发的基础。我们在这一领域已深耕 30 年之久。过去 10 年,我们一直专注于提供全集成机架解决方案:采用 42U 高机架,箱式交付,并派遣相关人员进行组装、供配电,在部署首日即可开机运行。
因此这项业务是我们的关注重点之一。我们的支持和销售对象不仅包括众多大型企业客户和 CSP,还有渠道中的众多企业,我们还提供各种解决方案。
我刚刚提到的第三点跟我们的首席执行官和创始人息息相关,[那就是]绿色计算。在对能源的利用上,我们希望尽可能提高能效。
也就是说,我们向有需要的客户提供的产品之一是水冷系统,[这类系统]确实能够大大提高数据中心的能效。我们的供配电系统是自主开发的。事实上,在所有与我们竞争的服务器和存储公司中,我们几乎是唯一一家对从电源到主板的所有产品,以及整个系统都进行自主设计、开发、制造的公司。
多年来,我一直从事这项业务。而且我们经验丰富。我就职的公司曾经为许多大型 OEM 完成相关工作
观众 Donnie Berkholz:我只是想请您澄清一点,您先是使用了“独特”这个说法,但后来又补充为“相当独特”。那么到底是独特还是罕有?
Wenjen:我的意思是就我了解的情况而言,我想不到有任何其他主要 OEM 拥有自主制造业务。他们都将这部分业务外包给 ODM 和合约制造商。而我曾经为其中一部分公司工作过,因此对这个市场很熟悉。 观众 Ben Young1:贵公司的所有权模型是怎样的?显然,过去几年,我们已经看到许多硬件制造商开始转向这种“即服务”模式。在这一领域,Supermicro 是否有机会发挥重要作用,还是目前尚处于资本支出阶段? Wenjen:是的,我们已经在向客户出货和提供设备。
观众 Ben Young1:但他们是只能直接购买?还是有“即服务”这个选项?比如,我想到的是 HPE GreenLake 或 Pure as a Service,可供客户以单位费率订阅,然后随着容量增长,加入更多设备。
Wenjen:是的,我们还没有推出过此类业务。
我的意思是,这类业务通常会与我们的客户(即 CSP)构成竞争。 那么让我继续我们的话题:面向 AI 和机器学习的存储。我们的合作伙伴 WEKA 对 1500 家客户进行了调查,并考察了影响客户成功的主要因素。 您应该可以想象得到,一个因素是计算性能,而另一类因素则是安全、数据泄露,可能还有公共模型。但事实上最大的一类因素是数据管理,既包括数据收集(对数据的详细信息进行处理),又包括将这些数据提供给 GPU 集群,进行训练和推理。 Solidigm 谈到有关 AI 数据流水线的内容。而我想要补充(而不是重复)的是,针对 AI 数据流水线的每个阶段,我们都提供相应的产品。对于摄取阶段,我们深知,客户通常并不知道他们正在开发的模型在一年后、两年后会需要什么样的数据。因此,他们通常只能尽可能多地收集数字数据、客户服务数据、制造数据。这些都有可能会在未来体现出价值。因此他们真正需要的是大型数据湖。这对于我们之前提到过的横向扩展非结构化存储来说是最优选项。我们拥有 90 盘位的大容量磁盘系统,采用双处理器配置,足够为此类存储系统提供坚实的基础。 在清理和转换[阶段],提供标记、ETL 等功能。以我的个人经验为例:我在供职于另一家公司期间参与过一个概念验证项目,当时我们正利用机器学习开发一个监督下的学习模型,用于电子束显微镜的晶圆数据。我们的目的是检测缺陷。结果,由于采用标记的方式,你需要知道缺陷是什么样子的。该公司只有少数工程师能够告诉你,有缺陷的 E-beam 扫描与无缺陷的 E-beam 扫描分别是什么样子。对我来说,这两种扫描毫无区别,但这些工程师对于查看 5 万个图像并对其进行标记并不感兴趣 - 这极其耗时,而且你也不能把这项任务外包给 Amazon。这是一类专有性非常强的数据。 因此,整个清理和转换过程(如果我们的系统可以采用闪存或混合闪存来执行的话)是需要认真考虑的重点领域,具体取决于模型的类型。而对于训练和评估领域,我在这里要提出的一点是,当然,你们拥有训练数据。可能经过标记,也可能未经标记。但是,您一定要保留全部模型开发周期的数据,还有所有用于为可解释的 AI 部署该模型的所有数据。因为如果您部署了该模型,然后开始得到奇怪的结果(这种情况时有发生),那么您需要能够回滚模型,并对创建该模型时使用的输入数据进行回溯。当然,您还需要另外一组未用于训练的数据来验证该模型。这些都解释了为什么该阶段对存储容量的需求特别巨大。对于 Solidigm 提到的推理,很多都可以在边缘完成。我们将介绍我们的产品组合,这些产品都针对边缘环境进行了充分优化。 我们在训练流水线中发现的一个问题是,我们称之为 I/O 混合器效应的东西。在这里,在第一个流水线中列出了 AI 数据流水线的各个阶段,当然这并非唯一的一个经常运行的流水线。您可能还有第二个流水线,可能有点偏移。 现在,假设您正在运行双 I/O 配置。稍后我们还会看到混合 I/O 配置,其中包含许多条这样的流水线。这可能是因为有多个数据科学家运行不同的模型,或者运行同一模型的不同版本,又或者您处于多租户环境中,有多方对数据进行访问。于是就制造出 Solidigm 提到的这种不同 I/O 配置的混合。根据我们的合作伙伴 WEKA 通过我们共同部署的解决方案中的仪表盘收集到的数据,我们看到的是粒度极小的 I/O 组合。大量的 4K IO,分为读取和写入。也有一些大 IO。所以这种非常小的 IO 混合,对于传统 NAS 解决方案来说并不是最优部署方案,这是很成问题的,确实有必要针对这类存储设计一个专门的解决方案。观众 Ray Lucchesi:您指的是当所有流水线同时运行时出现的混合 IO 模式吗?
Wenjen:对,那是其中的一部分。还有相当多的一部分数据没有被列入,但这已经具有一定的代表性了。
观众 Ray Lucchesi:数量这么多,这让我感到非常惊讶。而且写入还如此之小。
Wenjen:是的。我们收集到的情况就是如此,造成这种情况的原因很难确定。但这来自客户的数据。
观众 Ray Lucchesi:肯定不会是因为检查点的缘故。而是其他什么原因造成的。
Wenjen:有检查点。有存档。还有 ETL。所以我认为问题的关键是我们很难提前预测这些 IO 模式会是什么。因此,与其去盲猜,而且有可能猜错,还不如在设计中将各种各样 IO 模式纳入考量。而这正是我们将要谈到的内容。 那么现在就让我们来听听 Paul McLeod 对存储解决方案进行的介绍。
Paul Mcloed:谢谢,Wendell。好,屏幕上的数据实际上是一个子集。这并不符合大多数人对典型大数据的理解。他们通常会认为,哦,这都是一些大文件。我们将顺序移动这些数据,但这实际上会产生这种搅拌器效应。 这也是我们的合作伙伴 Weka 在早期就开始真正开始纳入考量的问题之一。作为合作伙伴,他们的身份是软件定义存储合作伙伴。但是您想针对这种环境提供的存储解决方案的整体目标,应该适用于这一工作流程中所有不同阶段,以及在该环境中并发的所有不同文件和文件大小的部署。在这方面,WEKA 做得非常到位。因为我们在五六年前 NVMe 问世之时遇到的情况之一是,我们发现 NVMe 的存储速度快于处理器 — 我已经在存储领域工作超过 25 年,而这是我职业生涯中首次遇到这种情况。 在 NVMe 上移动数据的速度快于处理器,即便在单 NVMe 配置中也是这样。所以在耗尽这些闪存设备的存储容量之前,处理器就已经过载了。因此如果你打算扩展,那么对于这类数据集和性能,你需要采用非常特殊的架构。在单 NVMe 配置下,我能够以出色的性能无碍运行。但如果我使用的是 1000 个 NVMe,那么就会在元数据方面遇到一些问题。一些问题可能会发生在一般人难以想象的方面,通常人们只会说,“嘿,给我一个速度更快的解决方案就好。”对吧?“我想要一个速度更快的流水线。给我一个速度更快的器件。” 但我认为 WEKA 的架构对这些方面都进行过深思熟虑。另一个经过周全考量的方面是与 S3/对象存储的集成。你需要配备实现数据传输的对象存储,无论闪存还是硬盘,让数据能够从基于文件的应用程序移动到云或所在环境中的任何地方,从而无需承受在模块设备中使用 FIFO 而产生的压力。 另一方面,对于 GPU 工作负载(尤其是 NVIDIA GPU)至关重要的是,采用 GPUDirect 存储。如果您不太了解 GPUDirect 存储,如果您的存储支持它,它基本能够让应用程序与 GPU 内存直接建立 RDMA 关系。 因此您可以绕开 CPU 内存,转而使用 GPU,这同样也是延迟步骤之一,因为整个流程的每个部分都会增加延迟。当您尝试扩展时,就会遇到问题。因此,Supermicro 在该架构的产品组合方面基本上处于有利地位,从最深处的 3.5 英寸存储到高性能闪存。由于我们的产品组合的构成非常丰富,我们也拥有多节点系统和刀片系统。那么在能够使用最适合您的环境的小型存储打造存储足迹方面,我们可以在机架级实现这一点,并为我们的客户对环境进行调优。毕竟并不是每个客户都会购买 superPOD,对吧? 有些人需要进行机架级的 AI 集成,在这种情况下,多节点部署可能比我们的 Petascale 产品更适合。在闪存方面,我们有从多节点到 Petascale 的一系列产品。在硬盘方面,我们拥有从 3.5 英寸存储服务器一直到 90 盘位 4U 机箱的丰富产品组合。 因此,具体取决于您是否已经实施 3.5 英寸存储……我认为这正是 Solidigm [在演示中]提出的问题之一。也就是说,如果这是一个绿地项目,能够进行全闪存部署固然很好,要是能把一切都放进内存就好了,真的。但是事实上,我们受到预算的限制。还要看这是否属于绿地项目。很多情况下,我们的客户带来的都是已经存在于 3.5 英寸存储的数据集。要将这些迁移到绿地环境中,可能既困难又耗时。 我们也有其他建设绿地项目且资金充裕的公司,他们会进行全闪存部署。再一次,Solidigm 拥有分层闪存设备的优势之一是,这意味着我可以在这里配置成本较低的闪存,然后在更靠近 GPU 应用的位置配置性能更高的闪存。
观众 Ray Lucchesi:Paul,那么这些将会成为 WEKA 集群上的节点?可以这样理解吗?对吗?
Mcloed:对。就闪存存储而言,回到上一张幻灯片,您可以看到我基本上采用的是多节点部署,一直到 3.5 英寸。3.5 英寸通常位于 S3 堆栈中,对吧?您肯定不希望 GPU 尝试从 3.5 英寸驱动器随机抽取数据。但在 WEKA 的解决方案中,所有的文件都可访问。在一些其他平台上,您也可以以文件形式调用 S3 存储设备或云中的文件句柄。这样做就可以引流到闪存,对吧?第一步操作基本上从 S3 开始,向闪存引流,这样 GPU 速度就能跟上闪存。 因此对于这个流水线,非常重要的一点是让产品组合满足上述所有不同元素。我们在 Solidigm 那场会议上谈到的另一个关键部分是物联网边缘。回到 Supermicro:如果您还没有访问过我们的网站,请务必前往。我们的服务器品种之多,会让您眼花缭乱。这里仅仅展示了我们的一小部分服务器产品,以及我们服务的市场的冰山一角。 在本页幻灯片中,从最边上开始,这是我们的一款无风扇工业计算机,适用于工厂车间。看上去就是个盒子,您可能曾经从它旁边走过,甚至就在这些楼里。 它看起来像个散热器。然后一直延伸到超大型部署,比如电信环境,比如某个电信中心会采用的部署。每种部署又都由若干存储元素构成。GPU 可能更多地属于中到大型部署这个区间,[因为]超小型[服务器]很少采用 GPU,但也不能排除例外情况的存在。 我们的确拥有纳入 GPU 的极小型边缘服务器和远端服务器。用例包括餐厅、订购系统和类似业务。那些数据会与这个 AI 进行交互。因为拥有上述业务的企业要将这些信息汇集到某处,进行实际分析,以确定该如何改进业务。 正中间的是立杆安装架构。这是配备闪存和 GPU、可经受恶劣天气的服务器。实际上,我们关注位于 AI 与硬件的接触面上的全部领域,并致力于为这些应用打造硬件。 让我们回到主题上来:我们如何打造面向 AI 的主要数据中心存储。Supermicro 拥有丰富的 GPU 服务器产品组合,这也是我们在 AI 业务以及对 AI 的兴趣方面收获如此大幅增长的另一个原因,因为我们几乎拥有 GPU 部署所需的、来自所有 GPU 制造商的每一种外形规格。然后,在 NVIDIA 环境和 GPUDirect 存储的用例中,我们的合作伙伴 WEKA 与 Solidigm 合作开发了这些大容量的全闪存系统,而[我们]能够根据客户的位置进行调优。 最后是数据湖环境,它们通常可能位于云端的 3.5 英寸存储部署中。但我们也与提供 S3 存储和高容量 S3 存储的所有不同合作伙伴开展合作。通常情况下,我们的客户已经部署了用于对象存储的扩展集群或主动扩展集群,他们将对其业务至关重要的资产存储下来,然后将 AI 元素添加到已有环境中。 这是对这一架构的更深入的分析。我们的产品交付形式是完全集成的。我们倾向于向您交付一个包含全套组件的机架:软件和所有的管道。基本上我们会负责安装运行和供配电,然后把钥匙交给您,供您应用于自己的特定应用。但我们对任何形式的合作伙伴关系都持开放态度。我认为,Supermicro 的与众不同之处就在于我们充分倾听客户的需求。 以这个用例为例,我们采用 400G 网络实现闪存的通信。闪存通过 25G 或 100G 网络与 3.5 英寸存储对接,然后 Supermicro 在机架级通过我们自己的交换机进行传递。这样客户基本上可以在几乎所有他们希望控制的方面获得控制权。我们越来越多地采用开放计算平台 (OCP) 和开放式基板管理控制器 (BMC),并对所有这些技术持开放态度,因为我们要确保客户获得达成其目标所需的一切。那么就让我们更进一步,看看闪存 Petascale 架构吧。您可以把我们的 Petascale 架构想象成“刀尖”。这种架构采用最新的闪存创新设计。您可能听说过 EDSFF。也可能从没听说过这个概念。EDSFF 是闪存设备的一种新规格。Solidigm 是该领域的领导者,英特尔是该领域的领导者。但我们从最开始就一直是领导者之一。简而言之,我们在过去五到六年里一直在生产采用这种技术的服务器。 现在,由于 PCI 总线的发展越来越快,这种技术正变得越来越重要,因为它领先于同类技术。市面上的 U.2 驱动器有点失去了势头;端口在高温环境中的表现欠佳,因为大多数人在部署时采用的闪存被置于面向旋转型存储设计的机箱中。而在 Petescale 架构中,我们可以看到 PCI 总线在处理器中的行进方式,因为处理器将位于存储和网络的中间位置,而网络可能是更高级的网络,比如 DPU;也就是具有加速功能,并内置有安全协议。 从管道的角度来看,我们希望 PCI 通道达到平衡状态。在那个角落,您可以看到我们达到了处理器环境中的最佳平衡状态。我们通过采用这种架构还获得了一个优势,那就是 CXL 这种新一代内存技术也通过 EDSFF 机箱实现。 这就是今天已崭露头角的未来趋势。我们所有的大型客户都在关注着这项技术。因为这意味着在 2.U 机箱中容纳最多 32 个 NVMe,非常先进。 这是 32 驱动器机箱的近景图示。这是一部 AMD 系统。AMD 有其独到之处。我们可以两两进行分支,因此如果您对容量较高的服务器更感兴趣,我们实际上可以提供具有 32 个 NVMe 的服务器。或者我们可以采用含 16 个驱动器的 1U 服务器,这两种方案的性能表现相当。因此,如果我采用同一部 2.U 并将这 16 个驱动器中的两个置入这里,那么我可以获得两倍性能。 这些就是我们的客户通常必须做出的决策,而我们可以为其提供指导,例如询问:您希望采取什么样的方式?我们与 WEKA 等供应商的合作伙伴关系,包括对这些系统进行测试和调优,并选择最佳组件。 基本上,[我们]构建这些架构是为了让我们的客户能够轻松获得适配其环境的存储解决方案。这里有一部 1U。这实际上属于 E1 NVMe EDSFF 规格。重复一次,EDSFF 规格具有颠覆性意义。 您将会见证该领域的进一步发展壮大。而 Solidigm,就像我说过的,一直都在参与其中。
[1] 观众 Ben Young 在视频中两次被错误地称作 Donnie Berkholz。Ben 的姓名已正确录入转录文本。