Deepseek-v3技术报告简报。
大家知道,硅谷的某几个前沿闭源模型公司,对外分享的技术信息越来越少了,报告里谈细节也是语焉不详。
但是这次Deepseek-v3 不仅模型开源,技术公布也是毫无遮掩,被称为报告里“黄金”。
所以找了一个简报供大家参考,报告原文传送门:github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
1、Performances
• 开源权重模型达到 SOTA(最先进性能):SOTA 是 “State of the Art” 的缩写,代表当前技术的顶尖水平。DeepSeek-v3 作为开源模型,其性能在多种任务上达到或超越了行业标准。
• 编码/数学-500/gpqa-diamond 测试中的表现:这些测试主要评估模型在编程能力、复杂数学问题解答(例如几何、代数)以及高级问答(GPQA)方面的能力,DeepSeek-v3 与 Sonnet 3.5 相当。
• 在 Codeforces 和 AIM 测试中超越 GPT-4o 和 Sonnet-3.5:
• Codeforces 是一个全球著名的编程竞赛平台,考察算法和问题解决能力。
• AIM(Artificial Intelligence Multitasking)测试,专注于 AI 在多任务处理上的表现。
• DeepSeek-v3 的成功可能得益于 r1 数据蒸馏,即通过筛选高质量数据优化模型的能力。
2、Pretraining(预训练)
• 总训练量:14.87T tokens:训练中处理了近 14.87 万亿单词或文本片段。如此大规模的数据训练,使得模型可以捕捉更广泛的知识和模式。
• 总 GPU 需求:仅需 2.788M H800 GPU 小时:相比同类模型,DeepSeek-v3 在硬件利用效率上表现卓越,展示了其优化的训练流程。
• 模型架构:700B MoE(稀疏专家)模型:
• MoE 模型:与传统密集模型不同,MoE 模型通过激活部分专家网络(Expert Networks)来处理特定任务,从而减少计算资源浪费。
• 256 个专家:
• 1 个共享专家:用于处理所有任务的基础部分,确保模型的通用能力。
• 8 个 top-k 专家激活:根据任务动态选择性能最优的 8 个专家,避免了全专家参与导致的资源浪费。
• 37B 总激活量:每次处理的专家网络规模大幅增加,提升了任务完成质量。
• 与 DeepSeek v2 比较:
• v2 使用的是 236B MoE,专家网络数量(16)和激活规模(21B)均明显少于 v3。
• 多头潜在注意力机制 (MLA):与 Transformer 的注意力机制类似,但更专注于提取潜在特征(如上下文语义之间的隐藏关联)。
• 前 3 层不使用 MoE:以密集网络结构代替,减少稀疏专家在模型早期计算中的干扰。
• 深度 61 层,宽度 7168:代表模型具有极高的复杂度,能捕获更精细的语义特征。
• 优化负载均衡,避免 token 丢失问题:即使未使用 dropless MoE 技术,模型仍能保持训练的稳定性。
• 多 Token 预测 (MTP):与传统的单 token 预测相比,MTP 同时预测多个 token,极大地提升了扩展性和计算效率。
• RMSNorm(归一化层):在潜在向量压缩后添加,进一步提升模型的稳定性与准确性。
3、Training Hyperparameters(训练超参数)
• 初始化标准差:0.006:这是模型初始参数的标准差,决定了训练初期的数值范围,过小或过大都会导致训练不稳定。
• 优化器:
• AdamW 是一种改进型优化器,结合动量与正则化技术,能加快收敛速度并防止模型过拟合。
• β参数 (0.9, 0.95):决定梯度动量和历史梯度的权重。
• 权重衰减 0.1:通过对参数施加惩罚,限制模型过度拟合训练数据。
• 训练数据量:
• 14.8T tokens(序列长度为 4k):模型一次性处理 4000 个词或片段的上下文信息,这种较长的序列长度帮助捕获更多语义细节。
• 学习率调度器:
• 学习率变化过程:从 2.2e-4 开始,经历稳定期(10T tokens),然后以余弦衰减方式降至 2.2e-5,最后在 333B token 内保持稳定,最终以 7.3e-6 收尾。
• 批量大小调整:
• 批量大小从 3072 增至 15,360(覆盖 469B tokens),单批次 token 数量高达 62.9M,这种逐步增加的策略有助于在训练后期充分利用硬件资源。
4、Long-Context(长上下文训练)
• 上下文窗口扩展:
• 从 4k -> 32k -> 128k,表示模型可以逐步处理更长的文本序列,有助于捕捉更远距离的语义关联。
• 批量大小随上下文长度变化:
• 32k 长度:批量大小为 1920。
• 128k 长度:批量大小降至 480,保证计算效率。
• 学习率:
• 7.3e-6,与预训练阶段的最终学习率保持一致。
• 无阶段 2 训练:DeepSeek-v3 直接使用预训练结果,无需额外的微调阶段,这与 Llama-3 或 Phi-3.4 的多阶段训练策略不同。
5、Distributed Training Details(分布式训练细节)
• 工程优化:
• 16 PP(流水并行)/ 64 EP(专家并行)/ Zero-1 DP(数据并行):
• PP 用于分解计算步骤。
• EP 用于分布式专家的任务分配。
• Zero-1 DP 则优化了内存使用,避免了昂贵的张量并行(TP)。
• DualPipe(双管道技术):
• 未公开的技术,可能涉及对计算流程的优化,使得训练速度优于传统方法。
• RMSNorm 和 MLA 投影部分会重新计算:
• 仅重新计算关键部分,例如归一化和注意力机制,节省计算资源。
• 混合精度训练:
• FP8(浮点精度 8 位):
• 大幅提升计算速度,同时保持训练的准确性。
• 结合 BF16 和 FP32:
• 使用 16 位和 32 位浮点数在不同计算阶段切换,以实现效率与精度的平衡
以上就是Deepseek-v3技术报告简报的详细内容,更多请关注全栈开发网其它相关文章!