阿里云弹性计算新升级:CPU上跑推理,模型起建成本降低50%|最前线

业界
TIME
2024-01-15 13:10
36氪
分享

  作者|武静静

  编辑|邓咏仪

  1月11日,阿里云升级第八代企业级通用计算实例ECS g8i产品。新产品依托于英特尔在2023年12月发布的第五代至强可扩展处理器,以及阿里云自研的“飞天+CIPU”架构体系所搭建。

  升级之后,新产品的在算力、网络、性能、应用场景方面有能力提升:

  • 算力层,ECS g8i实例的ECS g8i实例的L3缓存容量提升到320MB,内存速率提升至5600MT/s;
  • 性能方面,整机性能提升了85%,单核性能提升25%;
  • 网络方面,PPS达3000万,时延低至8微秒;
  • 场景上,新的ECS g8i实例可将MySQL数据库的性能提升至60%,Redis和Nginx的性能分别提升40%和24%。

  面对目前火热的大模型需求,新升级的ECS g8i实例进行了升级优化,让大模型跑在CPU上,并有效降低了模型搭建成本。

  这对于大模型的商业化落地意味着全新的尝试。一般而言,CPU在浮点、并行维度和内存宽带上都与GPU能力相差甚远,让模型跑在CPU上是一件困难的事。

  在技术,ECS g8i上做了一次新的尝试。为了解决首包延迟和吞吐性能技术难题,ECS g8i实例进行了针对性的技术优化,其内置指令集从AVX512升级到了Intel AMX高级矩阵扩展加速技术,可以加速模型运行。

  有了加速能力之后,模型推理过程在CPU上也能跑通,大大降低了大模型搭建和推理成本。此外,CPU相较GPU而言,更容易获取,成本也更低,所以,这也为解决算力短缺难题打开了新可能。

  阿里云弹性计算产品线总经理张献涛表示:“g8i可更迅速地响应中小规模参数模型,运行知识检索、问答系统及摘要生成等AI工作负载时,起建成本相比A10 GPU云服务器下降50%。”

  阿里云新发布的ECS g8i产品

  目前,在CPU上,ECS g8i不仅能支持中小模型的推理计算,还可以支撑72B参数级别的大语言模型分布式推理。以阿里云通义千问开源的Qwen-72B大模型为例,它可在g8i实例eRDMA网络构建的集群实现高效运行,输入小于500字时,首包延时小于3秒,每秒可生成7个Token。

  此外,ECS g8i还能支持超过32batchsize的超大参数规模的AI模型负载,涵盖目前市面上的文生图、AI生成代码、虚拟助手以及创意辅助工具等多类模型。

  在实际的模型落地中,要结合场景端的需求,综合考量效果和成本。根据阿里云的测试,通过CPU做超高并发,可以充分利用算力,进行长时间计算和推理。目前,ECS g8i在一些对实时性要求不高的离线场景,比如创意广告生成、离线视频摘要生成等AI功能方面,已经有良好的效果。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  最近这天气暖得都让大家忘了这是三九寒天了吧,看近10天气温距平实况图,这颜色看着就喜庆↓  今天白天,黄河以南的大部地区气温继续回升,最高气温20℃线北推到了河南...
互联网
  1月14日,国家卫生健康委举行新闻发布会,邀请相关专家介绍我国冬季呼吸道疾病防治和健康提示有关情况。  “今冬明春我国将继续呈现多种呼吸道病原体交替或者共同流...
互联网

相关推荐

1
3