FlashMLA FlashMLA 适用于 Hopper GPU 的高效 MLA 解码内核

未知
2025-02-24 11:05:39
0
授权协议 MIT  
开发语言 C/C++ Python
操作系统 跨平台  
软件类型 开源软件
关键字 MLA GPU
开源组织
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2025-02-24

FlashMLA,deepseek发布的为Hopper GPU优化的MLA解码内核,专为可变长度序列进行了优化

支持BF16格式
带有64块大小的分页KV缓存

在 H800 上实现:
内存受限情况下:3000 GB/s
计算受限情况下:580 TFLOPS

在AI服务部署时,适合需要快速响应用户请求的场景,对于要处理大量文本的应用特别有用

现已在生产环境中使用

当前发布:

  • BF16
  • 块大小为 64 的分页 kvcache

快速启动

安装

python setup.py install

基准

python tests/test_flash_mla.py

使用 CUDA 12.6,在 H800 SXM5 上,在内存绑定配置下实现高达 3000 GB/s,在计算绑定配置下实现 580 TFLOPS。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

要求

  • Hopper GPU
  • CUDA 12.3 及更高版本
  • PyTorch 2.0 及以上版本

代码

0

相关软件

ollama - 本地运行的大语言模型(LLM)平台 Ollama 是一个本地运行的大语言模型(LLM)平台,可以启动并运行 Llama 3.3、Deep...
Zed - 高性能、多人代码编辑器 Zed 是一款高性能、多人代码编辑器,由 Atom 和 Tree-sitter 的创建者开发。它也是...
HarmonyOS NEXT - 华为公司自研操作系统 HarmonyOS NEXT是华为公司自研操作系统,该系统是鸿蒙抛弃Linux内核及安卓开放源代码项...
ChatGPT - OpenAI发布的AI聊天机器人模型 ChatGPT(全名:Chat Generative Pre-trained Transformer...
PHP - 动态网页脚本语言 PHP(“PHP: Hypertext Preprocessor”,超文本预处理器的字母缩写)是一种...
Open WebUI - 用户友好的 AI 界面 Open WebUI 是一个功能丰富、用户友好的开源自托管人工智能界面,旨在为用户提供与大型语言模型...
Linux - 开源操作系统 Linux 是一个类 Unix 操作系统,是 Unix 的一种,它控制整个系统基本服务的核心程序 (...
Cursor - AI 代码编辑器 Cursor 是一款基于人工智能的代码编辑器,由美国公司 Anysphere 开发,旨在通过集成先进...
AnythingLLM - 易于使用的一体化 AI 应用程序 AnythingLLM 是一个功能强大且灵活的开源 AI 应用程序,由 Mintplex Labs ...
Swoole - PHP 协程框架 Swoole 使 PHP 开发人员可以编写高性能高并发的 TCP、UDP、Unix Socket、H...

最新文章

OpenAI GPT-4o 上线图像生成功能 OpenAI 宣布为 ChatGPT 推出图像生成功能:“将迄今最先进的图像生成器集成至 GPT-4...
新chatgpt-4o最强多模态模型,最强图生图(动嘴PS)模型的10个妙用,让... 新chatgpt-4o最强多模态模型,最强图生图(动嘴PS)模型的10个妙用,让你一次性涨知识
混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布 强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。随着Ope...
4个顶级的搜索引擎API,构建AI应用必备 本文介绍四款Web搜索API:博查、微软Bing、GoogleSerpApi和Exa.ai,各自具有...
多个大模型常用的搜索api插件分享 推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼ht...
通俗易懂说清楚什么是MCP 这两天随着 Manus 的爆火,MCP 也被大家频繁提及,那 MCP 到底是什么?说的通俗点,它就是...
AGI时代不可避免了,给8点建议 不管大家相不相信、愿不愿意接受,随着gpt、deepseek和manus这类产品的加速发展。以及机器...
人工智能冲击,美国程序员就业人数跌至1980年以来最低 美国劳工统计局的当前人口调查(Current Population Survey)数据显示,由于人工...
OpenAI 今天又发布了一批新功能,这次是三个音频模型API OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型一览这次发...
推荐自媒体多平台分发视频发布顺序 自媒体 多平台分发视频 发布顺序如下