DeepSeek公司发布专为英伟达Hopper GPU打造的大模型加速器FlashMLA

数码
TIME
2025-02-26 11:18
通信世界全媒体
分享

近日,DeepSeek公司正式发布并开源其最新技术成果FlashMLA。FlashMLA是专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核,并特别针对变长序列场景进行了优化,可显著提升大模型推理性能。同时,FlashMLA通过对BF16精度的全面支持,以及采用块大小为64的页式键值缓存系统,实现了更精确的内存管理。

在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上表现突出:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  近期,由上海人工智能实验室、上海交通大学等机构共同发布了一项创新算法技术,该技术能够使人形机器人从各种状态下实现快速、稳定地站立。据上海人工智能实验室青年...
智能AI
  日前,我国科学家开发了一种名为“石蜡辅助浸入法”的新技术,成功让二维材料“卷起来”,制备出具有可控手性的石墨烯卷,为未来量子计算和自旋电子器件的发展奠定了坚实...
业界

相关推荐

1
3