进一步了解大规模部署AI的更优解:Habana® Gaudi®2

数码
TIME
2023-07-21 10:25
英特尔
分享

大语言模型(Large Language Model,下文简称为:LLM)的发展如火如荼。以ChatGPT为代表的LLM可执行更为广泛的任务并具有更高的智能化程度,刷新了人们对AI技术的新认知。当然,LLM规模庞大,通常包含数十亿参数,需要海量的训练数据与强大算力支撑才能达到预期的效果。

其实,无论LLM还是其他应用越来越广泛的深度学习模型,从模型训练到推理应用,都需要高性能、可扩展的基础设施作为底层支撑,这往往也意味着高昂的成本。近日,英特尔发布的最新Habana® Gaudi®2,专为训练大语言模型而构建,并为数据中心大规模扩展而设计,同时为深度学习训练和推理工作负载提供极具性价比的解决方案。

在6月公布的MLCommons® MLPerf® 基准测试中,Gaudi®2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比,Gaudi®2拥有卓越的性能与领先的性价比优势,能够帮助用户提升运营效率的同时,降低运营成本。

Gaudi®2实现性能、可扩展性和能效飞跃

第二代Gaudi AI深度学习夹层卡 HL-225B 专为数据中心实现大规模横向扩展而设计。其AI处理器基于第一代 Gaudi的高效架构打造而成,目前采用7纳米制程工艺,在性能、可扩展性和能效方面均实现了飞跃。

夹层卡搭载的HL-2080 处理器拥有24个完全可编程的第四代张量处理器核心(TPC)。这些核心原生设计便能够为广泛的深度学习工作负载加速,同时还赋予用户按需进行优化和创新的灵活性。此外,它还集成了96GB HBM2e内存和48MB SRAM,支持600瓦夹层卡级热设计功耗(TDP)。

Gaudi®2 处理器具备出色的2.1 Tbps 网络容量可扩展性,原生集成21个100 Gbps RoCE v2 RDMA端口,可通过直接路由实现Guadi 处理器间通信。Gaudi®2处理器集成了专用媒体处理器,用于图像和视频解码及预处理。

此外,Gaudi®2 深度学习夹层卡符合OCP OAM 1.1(开放计算平台之开放加速器模块)等多种规范,可以为客户带来系统设计的灵活性。

图:Gaudi®2 深度学习夹层卡 HL-225B 主要参数

多维度技术创新,实现卓越性价比

Gaudi®2 处理器是一款高性能、完全可编程的AI处理器,它整合了多项技术创新,从计算架构、内存和扩展能力三个维度打造全新的AI 专用处理器。同时,它具有高内存带宽/容量和基于标准以太网技术的纵向扩展能力,支持使用外接网卡通过PCIe接口实现横向扩展,满足多节点集群需要。

[ 性能更高的计算架构 ]Gaudi®2 采用经过验证的高性能深度学习AI训练处理器架构,利用Habana完全可编程的TPC和GEMM引擎,支持面向AI的高级数据类型:FP8、BF16、FP16、TF32和FP32。TPC核心旨在支持深度学习训练和推理工作负载。TPC是一款VLIW SIMD矢量处理器,其指令集和邮件经过定制,可高效处理上述工作负载。

[ 更先进的内存技术 ]内存带宽和容量与计算能力同样重要。Gaudi®2 采用先进的HBM内存技术,内存容量高达96GB,内存带宽高达2.4TB/s。Gaudi先进的HBM控制器已针对随机访问和线性访问进行了优化,在各种访问模式下均可提供高内存带宽。

[ 通过集成RDMA实现纵向扩展 ]Gaudi AI训练处理器芯片上集成了RDMA(RoCEv2),可与成熟且广泛使用的以太网进行连接。HL-2080芯片互连技术基于42对56 Gbps Tx/Rx PAM4 SerDes(配置为21个100 GbE端口)发挥作用。

与广泛的软件生态一起,帮助简化模型的开发和迁移

为支持客户轻松构建模型,或将当前基于GPU的模型业务和系统迁移到基于全新Gaudi®2服务器,并帮助保护软件开发投入,SynapseAI® 软件套件针对Gaudi平台深度学习业务进行了优化,旨在与广泛的软件生态系统一起,帮助简化模型的开发和迁移。

SynapseAI® 软件套件旨在提高 Habana AI处理器的易用性和支持高性能训练,能够将神经网络拓扑高效映射到Gaudi系列硬件上。该软件套件包括Habana 的图编译器和运行时、经过性能优化的TPC算子库、固件和驱动程序以及开放工具,例如用于自定义核心开发的TPC 编程工具套件和SynapseAI 图编译器。SynapseAI与TensorFlow和PyTorch等主流框架集成,并已针对基于Gaudi AI 处理器家族产品的训练进行了优化。数据科学家和开发人员在这里可以找到开始基于Gaudi AI 处理器进行训练所需的各类信息资料,包括教程、参考模型、操作指南、文档等。

扩展AI产品阵容,加速AI落地

Gaudi®2不仅以高性能为AI模型的训练与推理加速,其高扩展性和性价比,也将加速AI应用落地的进程。多年来,借助强大的软硬件基础,英特尔基于全面的AI产品和解决方案,与广泛合作伙伴一同构建开放生态,为越来越多不同需求和场景的AI应用落地提供更多元的解决方案,持续引领产品技术发展,进一步加速大规模深度学习部署,助力中国本地AI市场发展。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  北京日报客户端 | 记者 胡德成  全年之中暑气最盛的时期终于来了  今天,正式进入中伏!  三伏分为初伏、中伏和末伏。  中伏,也叫二伏,可能是10天,也可能是20天...
娱乐
  本报北京7月20日电 (记者刘诗瑶)记者20日从中国载人航天工程办公室了解到:7月20日21时40分,经过约8小时的出舱活动,神舟十六号航天员景海鹏、朱杨柱、桂海潮密切协同,在...
业界