阿里云弹性计算新升级：CPU上跑推理，模型起建成本降低50%｜最前线

业界

TIME

2024-01-15 13:10

36氪

　　作者｜武静静

　　编辑｜邓咏仪

　　1月11日，阿里云升级第八代企业级通用计算实例ECS g8i产品。新产品依托于英特尔在2023年12月发布的第五代至强可扩展处理器，以及阿里云自研的“飞天+CIPU”架构体系所搭建。

　　升级之后，新产品的在算力、网络、性能、应用场景方面有能力提升：

　　面对目前火热的大模型需求，新升级的ECS g8i实例进行了升级优化，让大模型跑在CPU上，并有效降低了模型搭建成本。

　　这对于大模型的商业化落地意味着全新的尝试。一般而言，CPU在浮点、并行维度和内存宽带上都与GPU能力相差甚远，让模型跑在CPU上是一件困难的事。

　　在技术，ECS g8i上做了一次新的尝试。为了解决首包延迟和吞吐性能技术难题，ECS g8i实例进行了针对性的技术优化，其内置指令集从AVX512升级到了Intel AMX高级矩阵扩展加速技术，可以加速模型运行。

　　有了加速能力之后，模型推理过程在CPU上也能跑通，大大降低了大模型搭建和推理成本。此外，CPU相较GPU而言，更容易获取，成本也更低，所以，这也为解决算力短缺难题打开了新可能。

　　阿里云弹性计算产品线总经理张献涛表示：“g8i可更迅速地响应中小规模参数模型，运行知识检索、问答系统及摘要生成等AI工作负载时，起建成本相比A10 GPU云服务器下降50%。”

　　阿里云新发布的ECS g8i产品

　　目前，在CPU上，ECS g8i不仅能支持中小模型的推理计算，还可以支撑72B参数级别的大语言模型分布式推理。以阿里云通义千问开源的Qwen-72B大模型为例，它可在g8i实例eRDMA网络构建的集群实现高效运行，输入小于500字时，首包延时小于3秒，每秒可生成7个Token。

　　此外，ECS g8i还能支持超过32batchsize的超大参数规模的AI模型负载，涵盖目前市面上的文生图、AI生成代码、虚拟助手以及创意辅助工具等多类模型。

　　在实际的模型落地中，要结合场景端的需求，综合考量效果和成本。根据阿里云的测试，通过CPU做超高并发，可以充分利用算力，进行长时间计算和推理。目前，ECS g8i在一些对实时性要求不高的离线场景，比如创意广告生成、离线视频摘要生成等AI功能方面，已经有良好的效果。

THE END

免责声明：本文系转载，版权归原作者所有；刊载之目的为传播更多信息，如内容不适请及时通知我们。