FlashMLA 适用于 Hopper GPU 的高效 MLA 解码内核

未知

2025-02-24 11:05:39

授权协议 MIT

开发语言

操作系统跨平台

软件类型开源软件

关键字 MLA GPU

开源组织无

地区不详

投递者不详

适用人群未知

收录时间 2025-02-24

软件首页软件文档官方下载

概览
文章

FlashMLA，deepseek发布的为Hopper GPU优化的MLA解码内核，专为可变长度序列进行了优化

支持BF16格式
带有64块大小的分页KV缓存

在 H800 上实现：
内存受限情况下：3000 GB/s
计算受限情况下：580 TFLOPS

在AI服务部署时，适合需要快速响应用户请求的场景，对于要处理大量文本的应用特别有用

现已在生产环境中使用

当前发布：

BF16
块大小为 64 的分页 kvcache

快速启动

安装

python setup.py install

基准

python tests/test_flash_mla.py

使用 CUDA 12.6，在 H800 SXM5 上，在内存绑定配置下实现高达 3000 GB/s，在计算绑定配置下实现 580 TFLOPS。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

要求

Hopper GPU
CUDA 12.3 及更高版本
PyTorch 2.0 及以上版本

代码

最新文章

OpenAI GPT-4o 上线图像生成功能 OpenAI 宣布为 ChatGPT 推出图像生成功能：“将迄今最先进的图像生成器集成至 GPT-4...

新chatgpt-4o最强多模态模型，最强图生图(动嘴PS)模型的10个妙用，让... 新chatgpt-4o最强多模态模型，最强图生图(动嘴PS)模型的10个妙用，让你一次性涨知识

混元-T1: 强化学习驱动，业内首个超大规模混合Mamba推理模型正式发布强化学习在大语言模型的后训练阶段开创了新的Scaling范式，这一突破正日益受到业界重视。随着Ope...

4个顶级的搜索引擎API，构建AI应用必备本文介绍四款Web搜索API：博查、微软Bing、GoogleSerpApi和Exa.ai，各自具有...

多个大模型常用的搜索api插件分享推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼ht...

通俗易懂说清楚什么是MCP 这两天随着 Manus 的爆火，MCP 也被大家频繁提及，那 MCP 到底是什么？说的通俗点，它就是...

AGI时代不可避免了，给8点建议不管大家相不相信、愿不愿意接受，随着gpt、deepseek和manus这类产品的加速发展。以及机器...

人工智能冲击，美国程序员就业人数跌至1980年以来最低美国劳工统计局的当前人口调查（Current Population Survey）数据显示，由于人工...

OpenAI 今天又发布了一批新功能，这次是三个音频模型API OpenAI 今天又发布了一批新功能，这次是三个音频模型API，个人觉得挺实用。新音频模型一览这次发...

推荐自媒体多平台分发视频发布顺序自媒体多平台分发视频发布顺序如下

FlashMLA 适用于 Hopper GPU 的高效 MLA 解码内核

快速启动

安装

基准

用法

要求

代码

相关软件

最新文章