近日,DeepSeek公司正式发布并开源其最新技术成果FlashMLA。FlashMLA是专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核,并特别针对变长序列场景进行了优化,可显著提升大模型推理性能。同时,FlashMLA通过对BF16精度的全面支持,以及采用块大小为64的页式键值缓存系统,实现了更精确的内存管理。
在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上表现突出:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。