IT之家 3 月 12 日消息,Stability AI 近日发布新闻稿,表示在文生图模型 Stable Diffusion 3 测试中,英特尔 Gaudi2 加速器比英伟达 H100最多快 55%。
根据新闻稿,Stable Diffusion 3 模型参数范围在 8 亿到 80 亿之间,本次测试使用的是 20 亿参数版本。测试选手包括英伟达的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特尔 Gaudi2 96 GB 加速器。
在保持加速器和节点数量不变的情况下,英特尔 Gaudi2 阵列使用 2 个节点、16 个加速器和每个加速器 16 个恒定批处理大小(共 256 个),每秒可生成 927 幅图像,而 H100 阵列每秒生成 595 幅图像,A100 阵列每秒生成 381 幅图像。
在节点数相同的情况下,Gaudi2 阵列每秒可生成 12654 幅图像,每台设备每秒可生成 49.4 幅图像;而老一代 A100 "Ampere" 阵列每秒可生成 3992 幅图像,每台设备每秒可生成 15.6 幅图像。
Stability AI 表示:
在使用 80 亿参数的 Stable Diffusion 3 模型进行推理测试时候,Gaudi2 芯片的推理速度与使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,经过 TensorRT 优化后,A100 芯片生成图像的速度比高迪 2 快 40%。 我们预计,经过进一步优化后,Gaudi2 在该模型上的性能将很快超过 A100。在我们使用基本 PyTorch 的 SDXL 模型上进行的早期测试中,Gaudi2 在 3.2 秒内生成了 30 steps 1024x1024 图像,而 A100s 上的 PyTorch 为 3.6 秒,A100 上使用 TensorRT 的生成速度为 2.7 秒。
IT之家附上报告原文地址,感兴趣的用户可以深入阅读。