Stable Diffusion 3测试:英特尔 Gaudi2 比英伟达 H100 快 55%

业界
TIME
2024-03-12 14:40
IT之家
分享

  IT之家 3 月 12 日消息,Stability AI 近日发布新闻稿,表示在文生图模型 Stable Diffusion 3 测试中,英特尔 Gaudi2 加速器比英伟达 H100最多快 55%。

  根据新闻稿,Stable Diffusion 3 模型参数范围在 8 亿到 80 亿之间,本次测试使用的是 20 亿参数版本。测试选手包括英伟达的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特尔 Gaudi2 96 GB 加速器。

  在保持加速器和节点数量不变的情况下,英特尔 Gaudi2 阵列使用 2 个节点、16 个加速器和每个加速器 16 个恒定批处理大小(共 256 个),每秒可生成 927 幅图像,而 H100 阵列每秒生成 595 幅图像,A100 阵列每秒生成 381 幅图像。

  在节点数相同的情况下,Gaudi2 阵列每秒可生成 12654 幅图像,每台设备每秒可生成 49.4 幅图像;而老一代 A100 "Ampere" 阵列每秒可生成 3992 幅图像,每台设备每秒可生成 15.6 幅图像。

  Stability AI 表示:

  

在使用 80 亿参数的 Stable Diffusion 3 模型进行推理测试时候,Gaudi2 芯片的推理速度与使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,经过 TensorRT 优化后,A100 芯片生成图像的速度比高迪 2 快 40%。 我们预计,经过进一步优化后,Gaudi2 在该模型上的性能将很快超过 A100。在我们使用基本 PyTorch 的 SDXL 模型上进行的早期测试中,Gaudi2 在 3.2 秒内生成了 30 steps 1024x1024 图像,而 A100s 上的 PyTorch 为 3.6 秒,A100 上使用 TensorRT 的生成速度为 2.7 秒。

  IT之家附上报告原文地址,感兴趣的用户可以深入阅读。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  据媒体报道,国家药监局发布药品批准证明文件送达信息,显示沈阳兴齐眼药股份有限公司生产的硫酸阿托品滴眼液已于3月5日批准,兴齐眼药股价11日大涨近13%,创下历史新高。...
互联网
  3月12日,雷军发布微博称,“3月28日,小米SU7正式发布,这是我们的三年之约。”小米汽车官方微博称,上市即交付,交付即上量。  此外,雷军指出3月28日发布,3月25日开启29城品...
汽车

相关推荐

1
3