DeepSeek公司发布专为英伟达Hopper GPU打造的大模型加速器FlashMLA

数码

TIME

2025-02-26 11:18

通信世界全媒体

分享

近日，DeepSeek公司正式发布并开源其最新技术成果FlashMLA。FlashMLA是专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核，并特别针对变长序列场景进行了优化，可显著提升大模型推理性能。同时，FlashMLA通过对BF16精度的全面支持，以及采用块大小为64的页式键值缓存系统，实现了更精确的内存管理。

在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上表现突出：在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力水平。

THE END

免责声明：本文系转载，版权归原作者所有；刊载之目的为传播更多信息，如内容不适请及时通知我们。

相关热点

我国人形机器人自主站立控制技术取得新突破

　　近期，由上海人工智能实验室、上海交通大学等机构共同发布了一项创新算法技术，该技术能够使人形机器人从各种状态下实现快速、稳定地站立。据上海人工智能实验室青年...

智能AI

我国科学家制备出可控手性石墨烯卷

　　日前，我国科学家开发了一种名为“石蜡辅助浸入法”的新技术，成功让二维材料“卷起来”，制备出具有可控手性的石墨烯卷，为未来量子计算和自旋电子器件的发展奠定了坚实...

业界

最新文章

相关推荐

东京奥运会中国第13金由游泳健将张雨霏斩获，一天斩获两枚金牌

两名航天员成功出舱航天员刘伯明成功开启天和核心舱节点舱出舱舱门

微信显示“正在输入”，其实不是在回复消息，背后原因挺“伤人”

科技世界网创立于2009年，宗旨是科技创造财富，网络改变世界。多年来力争通过自主创新的技术实现为科技企业创造最大的价值。

关于我们 | 联系我们 | 版权申明 | 投稿须知 | 网站地图

认证联盟：创宇信用百度企业

内容投诉：gold_ant@qq.com

数据合作：阿里云科协产业园

增值许可证：辽B2-20150256

关注我们

科技世界官方百家号

关注官方微信公众号
探索科技与商业的逻辑

商务合作、媒体邀约
赶紧联系我们

Copyright © 2009-2022 twwtn.com 科协联盟荣誉成员科技世界网仅提供信息传播载体，所刊登文章仅供参考鄂ICP备2022015873号-1