近日,在荷兰阿姆斯特丹举行的 OCP Regional Summit 2019 大会上,百度与浪潮联合发布了全球首款基于 OCP OAI 标准(开放加速器基础设施)和液冷的 AI 计算新品 X-MAN 4.0。
X-MAN 4.0 是百度超级 AI 计算平台 X-MAN 系列产品的第四代,浪潮作为百度的重要合作伙伴之一,一直参与 X-MAN 系列产品的研发和生产,并 X-MAN 4.0 作为其目前在超级 AI 计平台上的最强有力产品推出。
X-MAN 系列,从 1.0 到 4.0
X-MAN 系列是百度用于超大规模 AI 训练的专用平台,已在百度的数据中心大规模应用。其中,第一代 X-MAN1.0 首次实现了 AI 计算硬件解耦架构;第二代 X-MAN2.0 首次将冷板式液冷散热技术应用到 AI 计算产品里;第三代 X-MAN3.0 则首次提出了模块化标准化设计的理念。
第四代 X-MAN4.0 作为全球首款基于 OCP OAI 标准(开放加速器基础设施)和液冷的 AI 计算新品,平台的单节点能够支持 8 个 AI 加速器。这些加速器之间采用了 8 port HCM(Hybrid Cube Mesh)的互联架构,双向通信带宽高达 56 GBps,充分保证 AI 加速器的性能。
而在单个机柜层面,X-MAN4.0 最大可支持 32 个 AI 加速器构建互联集群,很好的增强了平台可扩展性。X-MAN4.0 符合 ODCC 3.0 整机柜规范,高度为 4SU(182.5mm),宽 21 英寸(536.0mm),长度 850mm,支持风冷、液冷散热方式,并采用了更高效的 48V 供电方式。
百度超级 AI 计算平台 X-MAN 4.0
OCP 社区与 OAI 标准
OCP(Open Compute Project)即开放计算项目,它是由 Facebook 携英特尔、Rackspace 等公司于 2011 年成立的一个非营利组织, 目的是与普通的 IT 产业共享更高效的服务器和数据中心设计。同时,它也是全球云计算基础硬件技术领域覆盖面最广、最有影响力的开源组织。
而 OAI(Open Archives Initiative)标准是 OCP 社区里由百度主导并联合 Facebook、Microsoft 等针对 AI 硬件加速模块和系统设计所制定的标准。该标准用于指导 AI 硬件加速模块和系统设计, 它集合定义了 AI 硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等一系列设计规范。
目前,OAI 标准也得到了众多社区成员的支持,包括:Facebook、Microsoft、Google 等互联网企业,Intel、AMD、高通等 AI 芯片企业,及浪潮、IBM、联想等系统供应商。
获得众多企业成员支持的 OAI 标准
打造全球标准,加速 AI 进程
可以看到,由百度主导的 OAI 标准定义,在一定程度上推动了 AI 新硬件技术全球范围内的创新与进步。
OAI 标准的推行,不仅能够直接使得相关厂商统一 AI 硬件加速模块和系统设计,提高多元化 AI 加速芯片兼容性;而且还有利于促进不同 AI 加速器技术的开放融合,从而让 AI 计算平台设计更加敏捷,产业配套更为简化。
百度副总裁侯震宇曾表示:“OAI 标准将极大提高不同 AI 硬件加速模块和系统的互操作性,加速新 AI 硬件加速模块的大规模落地应用,全球 AI 硬件生态系统都会从中受益。”这也代表了百度将自身在 AI 领域的最佳实践共享至国际 AI 社区的初心。