“近日,MLCommons发布了三个 MLPerf推理测试标准与结果——Inference v2.0、Mobile v2.0 和 Tiny v0.7。MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。MLPerf 基准测试是对机器学习模型、软件和硬件能力的完整测试方案,并可衡量功耗使用情况。
”近日,MLCommons发布了三个 MLPerf推理测试标准与结果——Inference v2.0、Mobile v2.0 和 Tiny v0.7。MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,在规定的条件下,针对硬件、软件和服务的训练和推理性能提供公平的评估。MLPerf 基准测试是对机器学习模型、软件和硬件能力的完整测试方案,并可衡量功耗使用情况。
MLCommons 执行董事 David Kanter对此表示:“这是MLCommons的一项杰出工作,有如此多的新参与者,提交的数量和多样性也大大增加。并且功耗测量得到更多采用,凸显了行业对高效人工智能的关注。”
具体的三个MLPerf测试介绍如下:
MLPerf Inference 基准测试主要关注数据中心和边缘系统,提交者包括阿里巴巴、华硕、Azure、Deci.ai、戴尔、富士通、FuriosaAI、技嘉、H3C、浪潮、英特尔、Krai、联想、Nettrix、Neuchips、NVIDIA、Qualcomm、Supermicro 和浙江实验室。本轮测试一共展示了超过 3900 次性能测试和 2200 次功耗测试,分别是上一轮的 2 倍和 6 倍,充分展示了社区的活力。
MLPerf Mobile 基准测试针对智能手机、平板电脑、笔记本电脑和其他客户端系统,最新提交的报告显示平均性能比上一轮提高了两倍,厂商则包括了高通及三星,(分别是小米的米12以及三星的Galaxy S22)MLPerf Mobile v2.0 包含一个新的图像分割模型 MOSAIC,它是由Google Research 根据 MLCommons 的反馈开发的。
MLPerf Tiny 基准测试则适用于功耗最低、外形尺寸最小的设备,例如深度嵌入式、智能传感和物联网应用。包括阿里巴巴、Andes、hls4ml-FINN 团队、Plumerai、瑞萨电子、Silicon Labs、意法半导体和 Syntiant,这些公司共提交了 19 个不同的系统,比第一轮多 3 倍,其中超过一半的结果包含了功耗评估。
尽管如上介绍,此次参与者明显更多,但NVIDIA依然在Inference V2.0中占有绝对的领导地位——无论是数据中心还是边缘系统。值得一提的是,此次基于NVIDIA Ampere架构的低功耗系统级芯片NVIDIA Orin是首次参加测评。并且在边缘AI领域,NVIDIA Orin预生产版本在六项性能测试中的五项处于领先地位,其运行速度比上一代Jetson AGX Xavier快了5倍,能效平均提高了2倍。
除了Orin之外,此轮MLPerf,验证了NVIDIA的多项成果,包括MIG、TensorRT等,并且一些新厂商的加入,再次扩大了NVIDIA的生态系统。
Orin首次亮相MLPerf
根据官方所描述,NVIDIA Orin 系统级芯片由 170 亿个晶体管组成,凝聚 NVIDIA 团队为期四年的努力。Orin 系统级芯片集成了 NVIDIA 新一代 GPU 架构Ampere和 Arm Hercules CPU 内核以及全新深度学习加速器(DLA)和计算机视觉加速器(PVA),算力达275TOPS。在性能大幅提升的同时,进一步优化了能耗比。Orin 可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了 ISO 26262 ASIL-D 等系统安全标准。Orin最高性能是Jetson AGX Xavier的8倍,而对于相同售价来说,性能最高是Xavier的6倍。
而此次,MLPerf的结果也实际表明了Orin无论在性能和能效比上的强大之处。
目前,Orin主要关注三大领域,分别为:工业、自动驾驶和医疗。
NVIDIA Orin现已加入到用于机器人和自动化系统的NVIDIA Jetson AGX Orin开发者套件。包括亚马逊网络服务、约翰迪尔、小松、美敦力和微软Azure在内的6000多家客户使用NVIDIA Jetson平台进行AI推理或其他任务。
Orin也是NVIDIA Hyperion自动驾驶汽车平台的关键组成部分。中国最大的电动汽车制造商比亚迪近期宣布,他们将在其新一代自动驾驶电动汽车中使用内置Orin的DRIVE Hyperion架构。
Orin同样也是NVIDIA Clara Holoscan医疗设备平台的关键组成部分,且该平台可供系统制造商和研究人员用来开发新一代AI仪器。
高通的乱入
除了与Xavier对比之外,NVIDIA还专门拿出Orin以及其他产品线与高通的AI 100和骁龙865进行对比,并在多项测试中依旧保持着绝对领先的地位。
不过,高通AI 100加速器在总能耗方面显示出了特别的优势。比如在边缘端,QUALCOMM Cloud AI 100 DM.2e只需要15W,而在云端的QUALCOMM Cloud AI 100 PCIe/HHHL Pro也仅有75W。也正因此,在ResNet-50和SSD-Large的每瓦性能上,NVIDIA A100输给了高通的AI100.
在NVIDIA的新闻发布会上,公司AI 推理和云高级产品经理David Salvator也表示:“坦率地说,在 CNN类型的神经网络中,高通提供了一个非常好的解决方案,因为它与效率息息相关。但在SSD-Large的情况下,A100总体性能依然是AI 100的三到四倍。”
MIG可充分利用GPU
多实例GPU (MIG) 可提升每个 NVIDIA A100 Tensor 核心 GPU 的性能和价值。MIG可将 A100 GPU 划分为多达七个实例,每个实例均与各自的高带宽显存、缓存和计算核心完全隔离。管理员可以支持从大到小的各项工作负载,为每项工作提供规模适当的 GPU,而且服务质量 (QoS) 稳定可靠,从而优化利用率,让每位用户都能享用加速计算资源。
而根据实际测试结果,在使用7个实例时的性能为仅用一个实例的98%,这也意味着MIG可以充分利用GPU,避免了算力的浪费。
软件的重要性再次凸显
软件再次成为性能提升的关键驱动因素,NVIDIA在AI推理方面的软件包括了用于优化 AI 模型的 NVIDIA TensorRT 和用于有效部署它们的 NVIDIA Triton开源推理服务软件。Salvator 强调了 NVIDIA 的 Triton开源推理服务软件。
目前TensorRT 广泛的优化 GPU 内核库已支持Jetson Orin,MLPerf 中使用的插件已全部移植到 Orin 并添加到 TensorRT 8.4。Triton则与Kubernetes 紧密集成,可以管理 GPU 以及 x86 和 Arm CPU 上的 AI 推理工作,NVIDIA宣布,Triton现在可以只在CPU 上运行,而无需 GPU。
而也正是因为NVIDIA的跨平台管理能力,使A100 在 Arm 和 x86-64 平台上的性能几乎相同。并且,通过NVIDIA的软件优化,AI性能在过去一年中就增长了高达 50%。
另外,NVIDIA 与 Microsoft 一起展示了 A100 在 Azure 云中的性能。Azure在12月份的MLPerf训练测试中表现出色,在本轮AI推理测试中也取得了优异的成绩,这两场测试都使用了NVIDIA A100 Tensor Core GPU。Azure的ND96amsr_A100_v4实例在几乎所有推理测试中都与NVIDIA提交的性能最高的8个GPU相媲美,展现了公共云随时可以提供的能力。
无论是基于Arm、x86还是Azure,都达到了几乎相同的性能
广泛的生态伙伴
NVIDIA AI 平台再次吸引了来自最广泛合作伙伴生态系统的最多 MLPerf 提交。其中系统制造商华硕和新华三在本轮测试中首次使用NVIDIA AI平台提交MLPerf结果。此外,包括戴尔、富士通、技嘉、惠普企业、浪潮、联想、宁畅和美超微在内的NVIDIA认证系统制造商均提交了MLPerf结果。
总结
尽管有人开玩笑的表示MLPerf其实是一项 NVIDIA的基准测试,比如英特尔、谷歌、AMD(Xilinx)等,均没有参加此轮测试。
但MLPerf基准已经得到了亚马逊、ARM、百度、戴尔科技、Facebook、谷歌、哈佛大学、英特尔、联想、微软、斯坦福大学和多伦多大学等机构的广泛支持,并且如上所介绍,NVIDIA的众多合作伙伴也积极参与MLPerf的评测中。而且,在有了指标之后,其他公司才可以更好的与NVIDIA的产品直接对标。
此外,我们也看到包括ST、瑞萨、Syntiant、Silicon Labs、平头哥等公司的加入,MLPerf不仅关注云及边缘,在IoT终端方面,也越来越成为AI测试的基准。
分享到:
猜你喜欢