Deepseek-v3技术报告简报

未知
2025-03-19 09:36:27
0

Deepseek-v3技术报告简报

Deepseek-v3技术报告简报。


大家知道,硅谷的某几个前沿闭源模型公司,对外分享的技术信息越来越少了,报告里谈细节也是语焉不详。


但是这次Deepseek-v3 不仅模型开源,技术公布也是毫无遮掩,被称为报告里“黄金”。


所以找了一个简报供大家参考,报告原文传送门:github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf


1、Performances

• 开源权重模型达到 SOTA(最先进性能):SOTA 是 “State of the Art” 的缩写,代表当前技术的顶尖水平。DeepSeek-v3 作为开源模型,其性能在多种任务上达到或超越了行业标准。

• 编码/数学-500/gpqa-diamond 测试中的表现:这些测试主要评估模型在编程能力、复杂数学问题解答(例如几何、代数)以及高级问答(GPQA)方面的能力,DeepSeek-v3 与 Sonnet 3.5 相当。

• 在 Codeforces 和 AIM 测试中超越 GPT-4o 和 Sonnet-3.5:

• Codeforces 是一个全球著名的编程竞赛平台,考察算法和问题解决能力。

• AIM(Artificial Intelligence Multitasking)测试,专注于 AI 在多任务处理上的表现。

• DeepSeek-v3 的成功可能得益于 r1 数据蒸馏,即通过筛选高质量数据优化模型的能力。


2、Pretraining(预训练)

• 总训练量:14.87T tokens:训练中处理了近 14.87 万亿单词或文本片段。如此大规模的数据训练,使得模型可以捕捉更广泛的知识和模式。

• 总 GPU 需求:仅需 2.788M H800 GPU 小时:相比同类模型,DeepSeek-v3 在硬件利用效率上表现卓越,展示了其优化的训练流程。

• 模型架构:700B MoE(稀疏专家)模型:

• MoE 模型:与传统密集模型不同,MoE 模型通过激活部分专家网络(Expert Networks)来处理特定任务,从而减少计算资源浪费。

• 256 个专家:

• 1 个共享专家:用于处理所有任务的基础部分,确保模型的通用能力。

• 8 个 top-k 专家激活:根据任务动态选择性能最优的 8 个专家,避免了全专家参与导致的资源浪费。

• 37B 总激活量:每次处理的专家网络规模大幅增加,提升了任务完成质量。

• 与 DeepSeek v2 比较:

• v2 使用的是 236B MoE,专家网络数量(16)和激活规模(21B)均明显少于 v3。

• 多头潜在注意力机制 (MLA):与 Transformer 的注意力机制类似,但更专注于提取潜在特征(如上下文语义之间的隐藏关联)。

• 前 3 层不使用 MoE:以密集网络结构代替,减少稀疏专家在模型早期计算中的干扰。

• 深度 61 层,宽度 7168:代表模型具有极高的复杂度,能捕获更精细的语义特征。

• 优化负载均衡,避免 token 丢失问题:即使未使用 dropless MoE 技术,模型仍能保持训练的稳定性。

• 多 Token 预测 (MTP):与传统的单 token 预测相比,MTP 同时预测多个 token,极大地提升了扩展性和计算效率。

• RMSNorm(归一化层):在潜在向量压缩后添加,进一步提升模型的稳定性与准确性。


3、Training Hyperparameters(训练超参数)

• 初始化标准差:0.006:这是模型初始参数的标准差,决定了训练初期的数值范围,过小或过大都会导致训练不稳定。

• 优化器:

• AdamW 是一种改进型优化器,结合动量与正则化技术,能加快收敛速度并防止模型过拟合。

• β参数 (0.9, 0.95):决定梯度动量和历史梯度的权重。

• 权重衰减 0.1:通过对参数施加惩罚,限制模型过度拟合训练数据。

• 训练数据量:

• 14.8T tokens(序列长度为 4k):模型一次性处理 4000 个词或片段的上下文信息,这种较长的序列长度帮助捕获更多语义细节。

• 学习率调度器:

• 学习率变化过程:从 2.2e-4 开始,经历稳定期(10T tokens),然后以余弦衰减方式降至 2.2e-5,最后在 333B token 内保持稳定,最终以 7.3e-6 收尾。

• 批量大小调整:

• 批量大小从 3072 增至 15,360(覆盖 469B tokens),单批次 token 数量高达 62.9M,这种逐步增加的策略有助于在训练后期充分利用硬件资源。


4、Long-Context(长上下文训练)

• 上下文窗口扩展:

• 从 4k -> 32k -> 128k,表示模型可以逐步处理更长的文本序列,有助于捕捉更远距离的语义关联。

• 批量大小随上下文长度变化:

• 32k 长度:批量大小为 1920。

• 128k 长度:批量大小降至 480,保证计算效率。

• 学习率:

• 7.3e-6,与预训练阶段的最终学习率保持一致。

• 无阶段 2 训练:DeepSeek-v3 直接使用预训练结果,无需额外的微调阶段,这与 Llama-3 或 Phi-3.4 的多阶段训练策略不同。


5、Distributed Training Details(分布式训练细节)

• 工程优化:

• 16 PP(流水并行)/ 64 EP(专家并行)/ Zero-1 DP(数据并行):

• PP 用于分解计算步骤。

• EP 用于分布式专家的任务分配。

• Zero-1 DP 则优化了内存使用,避免了昂贵的张量并行(TP)。

• DualPipe(双管道技术):

• 未公开的技术,可能涉及对计算流程的优化,使得训练速度优于传统方法。

• RMSNorm 和 MLA 投影部分会重新计算:

• 仅重新计算关键部分,例如归一化和注意力机制,节省计算资源。

• 混合精度训练:

• FP8(浮点精度 8 位):

• 大幅提升计算速度,同时保持训练的准确性。

• 结合 BF16 和 FP32:

• 使用 16 位和 32 位浮点数在不同计算阶段切换,以实现效率与精度的平衡

以上就是Deepseek-v3技术报告简报的详细内容,更多请关注全栈开发网其它相关文章!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 service@p2hp.com 进行投诉反馈,一经查实,立即处理!
-- -- 0

相关内容

中国Deepseek为何震惊了国内外,特别是美国人?
中国Deepseek为何震惊了国内外,特别是美国人?
中国Deepseek为何震惊了国内外,特别是美国人?
2025-03-19 10:09:34
DeepSeek R1 系统提示词
DeepSeek R1 系统提示词
DeepSeek R1 系统提示词:您是由中国公司深度求索(DeepSeek)独家开发的智...
2025-03-19 10:07:58
一文读懂:DeepSeek新模型大揭秘,为何它能震动全球AI圈
一文读懂:DeepSeek新模型大揭秘,为何它能震动全球AI...
【编者按】课代表系列-AI大事儿的最快、最全解读,本文关注DeepSeek-R1在技术上最...
2025-03-19 09:51:48
一个讲解如何从头开始构建 DeepSeek R1的项目
一个讲解如何从头开始构建 DeepSeek R1的项目
开发者Fareed Khan's 用手绘流程图以及代码的方式,逐步讲解如何按照 ...
2025-03-17 16:12:02
超越DeepSeek R1与GPT 4.5,百度周末两连发!文心大模型4.5及X1,免费!
超越DeepSeek R1与GPT 4.5,百度周末两连发!...
超越DeepSeek R1与GPT 4.5,百度周末两连发!文心大模型4.5及X1,免费!...
2025-03-16 14:52:16
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
MoE模型 vs Transformer模型核心区别 MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。

最新文章

混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布 强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。随着Ope...
多个大模型常用的搜索api插件分享 推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼ht...
通俗易懂说清楚什么是MCP 这两天随着 Manus 的爆火,MCP 也被大家频繁提及,那 MCP 到底是什么?说的通俗点,它就是...
OpenAI 今天又发布了一批新功能,这次是三个音频模型API OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型一览这次发...
用Gemini翻译文章的优缺点及注意事项 用Gemini翻译文章的优缺点及注意事项,Gemini优点是上下文超长,翻译完成度极高,优化Prom...
中国信通院发起大模型幻觉测试,总体涉及五种测试维度 据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchm...
大模型的上下文窗口大小是什么 大模型的上下文窗口大小是什么在中文语境中,“大模型的上下文窗口大小”指的是大型语言模型(如我这样的G...
中国Deepseek为何震惊了国内外,特别是美国人? 中国Deepseek为何震惊了国内外,特别是美国人?
DeepSeek R1 系统提示词 DeepSeek R1 系统提示词:您是由中国公司深度求索(DeepSeek)独家开发的智能助手De...
一文读懂:DeepSeek新模型大揭秘,为何它能震动全球AI圈 【编者按】课代表系列-AI大事儿的最快、最全解读,本文关注DeepSeek-R1在技术上最重要的突破...