混元-T1: 强化学习驱动，业内首个超大规模混合Mamba推理模型正式发布

未知

2025-03-23 10:14:06

简介

强化学习在大语言模型的后训练阶段开创了新的Scaling范式，这一突破正日益受到业界重视。随着OpenAI O系列模型与DeepSeek R1的相继发布，模型展现的卓越性能充分证明了强化学习在优化过程中的关键作用。

今年2月中，混元团队在腾讯元宝APP上线了基于混元中等规模底座的混元T1-Preview（Hunyuan-Thinker-1-Preview）推理模型，为用户带来了极致、快速的深度思考体验。

今天，我们非常高兴地向大家宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版，该模型基于我们在3月初发布的业界首个超大规模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座，通过大规模后训练显著扩展了推理能力，并进一步对齐人类偏好。

混元-T1相比前代T1-preview模型综合效果提升显著，是一款业界领先的前沿强推理大模型。

基于TurboS的T1在深度推理方向展现了独特的优势。TurboS的长文捕捉能力帮助Turbo-S有效解决了长文推理中经常遇到的上下文丢失和长距离信息依赖难题。其次，其Mamba架构专门优化了长序列的处理能力，通过高效的计算方式，能够在保证长文本信息捕捉能力的同时，显著降低计算资源的消耗，相同部署条件下、解码速度快2倍。

在模型后训练阶段，我们96.7%的算力投入到了强化学习训练，重点围绕纯推理能力的提升以及对齐人类偏好的优化。

我们收集了世界理科难题，涵盖数学/逻辑推理/科学/代码等，这些数据集涵盖了从基础的数学推理到复杂的科学问题解决，结合ground- truth的真实反馈，确保模型在面对各种推理任务时能够展现出卓越的能力。

在训练方案上，我们采用了课程学习的方式逐步提升数据难度，同时阶梯式扩展模型上下文长度，使得模型推理能力提升的同时学会高效利用token进行推理。

在训练策略上，我们参考了经典强化学习的数据回放/阶段性策略重置等策略，显著提升了模型训练长期稳定性50%以上。在对齐人类偏好阶段，我们采用了self-rewarding（基于T1- preview 的早期版本对模型输出进行综合评价、打分） + reward mode 的统一奖励系统反馈方案，指导模型进行自我提升，模型在答复中展现了更丰富的内容细节以及更高效的信息。

混元-T1除了在各类公开benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知识和竞赛级数学、逻辑推理指标上基本持平或略超R1外，在内部人工体验集评估上也能对标，其中文创指令遵循、文本摘要、agent能力方面略有胜。

从综合评测指标来看，混元T1的整体效果能对标一线前沿的推理模型。综合能力评测方面，在MMLU- PRO上T1仅次于O1，高达87.2分，这个测试集涵盖人文社科、理工科等14个领域的题目，主要测试模型对广泛知识的记忆和理解，另外还有聚焦于专业领域知识和复杂科学推理的GPQA- diamond，主要包括博士级别的物理/化学/生物难题，T1达到了69.3分。

理科方面，我们测试了代码/数学/逻辑推理等注重强推理能力的场景，在LiveCodeBench的代码评测中，T1达到了64.9分。同时，T1在数学方面也表现卓越，尤其是在MATH-500上，取得了96.2分的好成绩，紧跟DeepSeek R1，显示出T1在解决数学题方面的综合能力。除此之外，T1还在多项对齐任务、指令跟随任务和工具利用任务中展现出了非常强的适应性。例如，在ArenaHard任务中，T1拿下了91.9分的成绩。

模型效果

注：表格中，其它模型的评测指标来自官方评测结果，官方评测结果中没有的部分来自混元内部评测平台结果

以上就是混元-T1: 强化学习驱动，业内首个超大规模混合Mamba推理模型正式发布的详细内容，更多请关注全栈开发网其它相关文章！

推理模型混元

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 service@p2hp.com 进行投诉反馈，一经查实，立即处理!

-- -- 0

上一篇：多个大模型常用的搜索api插件分享

下一篇：OpenAI GPT-4o 上线图像生成功能

相关内容

阿里发布全新开源推理模型 QwQ-32B，其性能可与 Dee...

阿里云通义千问官方公众号发文宣布，推出最新的推理模型 QwQ-32B。一款拥有 320 亿...

2025-03-07 09:30:30

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程...

就在刚刚，Anthropic祭出首个混合推理Claude3.7Sonnet，堪称扩展思考模...

2025-02-25 11:04:53

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化版）

🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示（优化... 在生成您期望的内容之前，请先用这个提示语开启对话。若 Grok 表示理解并同意，您便可以生成几乎任何...

大模型的Tokens是什么大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...

大模型与知识库：区别与联系随着人工智能技术的迅猛发展，大模型与知识库作为其中的两个重要组成部分，各自扮演着不同的角色，同时又存...

2025年国内外AI大模型的API接口网址整理本文将盘点国内外的知名度较高的AI大模型平台，其中包括AI大语言模型和AI多模态模型，方便大家一探究...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

《DeepSeek：从入门到精通》 104 页高清PDF，清华大学出品！《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如何避免模型绕过思维的指南

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

大模型的max_tokens参数是输出token数吗在大多数大语言模型的API（如OpenAI的GPT系列、Anthropic的Claude、或国内的一...

一文图解 DeepSeek-R1 的出众推理能力从何而来？今天这篇深度解析 DeepSeek-R1 训练方法的文章，将展示一个令人耳目一新的解决方案：如何通过...

国内Ai大模型排行榜国内AI大模型的发展呈现出多样化的态势，各种类型的大模型纷纷涌现，包括改头换面的、剑走偏锋的、借壳炒...

一文读懂！DeepSeek R1超简易本地安装运行部署教程部署 DeepSeek R1 本地模型，并通过 Ollama 提供 API 支持。配合全栈AI助手 ...

DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置，包含了推荐的温度设置、系统...

AI 的关键是语料我的观点是，不管怎么调整模型的架构、功能、参数，作用是有限的，真正决定性的因素是训练模型的语料。不需...

本地运行DeepSeek R1的全面入门指南本地运行DeepSeek R1的全面入门指南，介绍各种本地运行DeepSeek R1方法。

混元-T1: 强化学习驱动，业内首个超大规模混合Mamba推理模型正式发布

相关内容

最新文章

推荐软件