刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

未知
2025-02-25 11:04:53
0

就在刚刚,Anthropic祭出首个混合推理Claude3.7Sonnet,堪称扩展思考模式的最强模型。在最新编码测试中,新模型暴击o3-mini、DeepSeek R1,AI编码王者出世了。

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude3.7Sonnet重磅登场!

这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

简言之,一个模型,两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题,扔给Claude3.7Sonnet,然后同时选择「Extended」模式。

它便会展示详细CoT过程,用时52秒就完成了。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

最关键的是,Claude3.7Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。

在多项基准测试中,「扩展思考」模式加持下的Claude3.7Sonnet,在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude3.5Sonnet,数学、编码能力更是暴涨10%以上。

除了数学,Claude3.7Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok3不相上下。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

API用户可以精确控制模型的思考时间

可以说,Claude3.7Sonnet完全是一个最强「软件工程AI」。在SWE-bench上,创下了70.3%的高分。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

与此同时,首款「智能体编程」工具Claude Code(预览版)也在今天问世了。

如今,它已经成为Anthropic内部,不可或缺的工具。在早期测试中,Claude一次性就完成人类需要45分钟的任务。

也就是说,你做产品经理,AI给你打工写代码。


虽没有Claude4,Anthropic这波突如其来的打法,实属给AI界又一震撼。

这半个月,注定是2025开年以来AI含金量最高的。

Grok3上周刚发布,这周DeepSeek连续开源5天,OpenAI GPT-4.5据称也要上线,再加上Claude3.7Sonnet,大模型领域的混战又开始了。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

全球首款「混合推理」模型诞生

在官方博文中,Anthropic称,Claude3.7Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型。


Claude3.7Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面,Claude3.7Sonnet得到显著提升。

除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。

目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。


推理,是一个LLM整体能力

Claude3.7Sonnet的设计理念与市场上其他推理模型不同。

Anthropic相信,就像人类使用一个大脑来处理快速反应和深度思考一样,推理应该是前沿模型的整体能力,而不是一个完全独立的模型。这种统一的方法为用户提供了更流畅的体验。

Claude3.7Sonnet在几个方面体现了这一理念。

首先,Claude3.7Sonnet既是普通的语言模型(LLM),也是一个推理模型:可以选择在什么时候希望模型正常回答,什么时候希望它在回答之前思考更长的时间。

在标准模式下,Claude3.7Sonnet是Claude3.5Sonnet的升级版本。

在扩展思考模式下,它在回答之前进行自我反思,这提高了在数学、物理、指令遵循、编码和其他许多任务上的性能。

通常,两种模式对模型的提示效果相似。

其次,通过API使用Claude3.7Sonnet时,用户还可以控制思考的预算——

你可以告诉Claude在回答时最多思考N个tokens,N的最大值为128K tokens的输出限制。这使得用户可以在速度(和成本)与回答质量之间进行权衡。

第三,在开发推理模型时,Anthropic在数学和计算机科学竞赛问题上的优化程度稍微降低,而是将重点转向了更能反映企业实际使用LLM的现实世界任务。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude3.7Sonnet在SWE-bench Verified上刷线SOTA,该评测旨在评估AI模型解决现实世界软件问题的能力

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude3.7Sonnet在TAU-bench上刷新SOT,TAU-bench是一个测试AI智能体在复杂现实世界任务中与用户和工具交互能力的框架

如前所述,Claude3.7Sonnet几乎在各大基准测试中,性能得到了显著提升。

相较于最新Grok3Beta模型,Claude3.7Sonnet(64k extended thinking)在推理方面几乎打成平手。而在数学、视觉推理方面,又略逊色于Grok3Beta。

与o3-mini、DeepSeek R1相比,除了数学,带有扩展思考模式的Claude3.7Sonnet拿下最高分。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude3.7Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外,它甚至在宝可梦游戏测试中超越了所有先前模型

AI编码智能体,一次完成45分钟任务

自2024年6月以来,Sonnet系列一直是全球开发者的首选模型。

今天,Anthropic的首个智能体编码工具Claude Code诞生,目前以限量研究预览的形式发布。

Claude Code主动与人协作,能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub,以及使用命令行工具——同时确保用户在每一步都能参与其中。


此外,本次更新还改进了Claude.ai上的编码体验。

现在,所有Claude套餐都支持GitHub集成——开发者能够将代码仓库直接连接到Claude。

作为Anthropic迄今为止最强大的编码模型,Claude3.7Sonnet能更深入地理解个人项目、工作项目和开源项目,并一举成为修复bug、开发新功能以及编写GitHub文档的强大助手。


目前,Claude Code还处于早期阶段,但已经成为Anthropic团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和大规模重构方面。

在早期测试中,它能够一次性完成了通常需要手动工作45分钟以上的任务,显著减少了开发时间和工作量。

在接下来的几周里,Anthropic计划根据使用情况不断改进它:提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果,并扩展Claude对自身能力的理解。

全新的测试时Scaling

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude作为AI智能体

Claude3.7Sonnet具备了一项被称为「行为扩展」(action scaling)的新特性——这种改进使其能够迭代调用函数、响应环境变化,并持续操作直到完成开放式任务。

例如在计算机使用方面:Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude3.7Sonnet能够在计算机使用任务中投入更多的交互次数,同时配备更充足的时间和计算资源,因此往往能取得更好的结果。

这一进步在OSWorld评估中得到了充分体现,这是一个用于评估多模态AI智能体能力的测试平台。

Claude3.7Sonnet在初始阶段就展现出了较好的表现,而随着其持续与虚拟计算机交互,其性能优势还会随时间推移而不断扩大。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude的扩展思考模式与AI智能体训练相结合,不仅帮助它在OSWorld等众多标准评估中取得了更好的表现,还让它在一些其他意想不到的任务中实现了重大突破。

以玩游戏为例——特别是在Game Boy掌机经典游戏「口袋妖怪:红」中的表现。他们为Claude配备了基础记忆能力、屏幕像素输入功能,以及按键操作和屏幕导航的函数调用能力,使其能够突破常规上下文限制,持续进行游戏,实现长达数万次的持续交互。

在下图中,他们对比了具备扩展思考能力的Claude3.7Sonnet与之前版本的Claude Sonnet在口袋妖怪游戏中的进度。

如图所示,早期版本在游戏伊始就难以推进,Claude3.0Sonnet甚至无法走出故事起点真新镇的初始小屋。

而Claude3.7Sonnet凭借改进后的AI智能体能力取得了显著进展,成功挑战并击败了三位道馆馆主,获得了相应的徽章。

Claude3.7Sonnet在尝试多种策略和重新审视既有假设方面表现出色,这使它能够在游戏过程中不断提升自身能力。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

串行与并行测试时计算Scaling

当Claude3.7Sonnet运用其扩展思考能力时,可以说它利用了「串行测试时计算」机制。

具体而言,它会在生成最终输出之前,执行多个连续的推理步骤,并在此过程中持续增加计算资源投入。

总体来看,这种机制能够以可预测的方式提升其性能表现:例如,在数学问题求解方面,其准确率会随着允许采样的「思考Token」数量的增加呈对数增长。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude的研究人员还在探索使用并行测试时计算来提升模型性能。

具体方法是通过采样多个独立的思维过程,并在不预先知道正确答案的情况下选择最佳结果。这可以通过多数表决或共识投票机制来实现,即选择出现频率最高的答案作为「最佳」答案。

另外也可以使用另一个LLM来验证其工作成果,或采用经过训练的评分函数来选择最优答案。

这些优化策略(及相关研究工作)已在多个AI模型的评估报告中得到验证。

在GPQA评估中,他们通过并行测试时计算Scaling取得了突破性进展。

具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude3.7Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。

值得注意的是,即使超出常规多数表决的限制范围,模型性能仍在持续提升。

下图列出了评分模型方法和多数表决方法的详细结果。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

这些方法能够提升Claude回答的质量,而且通常无需等待其完成推理过程。同时进行多个不同的深度思维运算,Claude能够探索更多问题解决思路,显著提升正确答案的输出频率。

三步路线图,Claude合作者已来

Claude3.7Sonnet和Claude Code标志着,向真正增强人类能力的人工智能系统迈出的重要一步。

凭借其深入推理、自主工作和有效协作的能力,它们让我们更接近一个未来,在那里人工智能丰富了人类所能实现的事情。

如今,Claude合作者已来。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

最新版,可以免费用了

值得一提的是,Claude3.7Sonnet目前已经在Claude.ai平台上线,Web、iOS和Android用户皆可免费体验。

对于希望构建自定义AI解决方案的开发者,可以通过Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI进行访问。

在标准模式和扩展思考模式下,Claude3.7Sonnet的价格与其前代产品相同:3美元/百万输入token,15美元/百万输出token ——这其中包括了思考token的费用。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Anthropic套餐定价

AI大佬测试

宾夕法尼亚大学沃顿商学院的教授Ethan Mollick已经在过去几天对Claude3.7进行了测试,

Claude3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉:既惊叹不已,又对它们的能力感到一丝不安。以 Claude的原生编码能力为例,我们现在可以通过自然对话或文档获得可运行的程序,而无需任何编程技能。

例如,他向Claude提供了一份关于新型AI教育工具的提案,并在对话中要求它「以3D形式展示所提议的系统架构,并使其具有交互性」。结果,它生成了我们论文中核心设计的交互式可视化效果,没有任何错误。

这些图形虽然很简洁,但并不是最令人印象深刻的部分。真正让人惊叹的是,Claude自主决定将其制作成一个逐步演示来解释相关概念,而这并不是我们要求它做的。

这种对需求的预判和对新方法的思考是AI领域中的一项新突破。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

再举一个更有趣的例子,Ethan Mollick告诉Claude:「给我做一个交互式的时间机器装置,让我可以穿越回过去,并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」 以及 「添加更多图像。」

仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到它正在创建的内容,就像一个被蒙住眼睛的艺术家。

以上就是刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1的详细内容,更多请关注全栈开发网其它相关文章!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 service@p2hp.com 进行投诉反馈,一经查实,立即处理!
-- -- 0

相关内容

混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布
混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推...
强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。...
2025-03-23 10:14:06
多个大模型常用的搜索api插件分享
多个大模型常用的搜索api插件分享
推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提...
2025-03-22 09:56:42
中国信通院发起大模型幻觉测试,总体涉及五种测试维度
中国信通院发起大模型幻觉测试,总体涉及五种测试维度
据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety B...
2025-03-20 10:32:23
9个 JavaScript 单行代码提升你的编程水平
9个 JavaScript 单行代码提升你的编程水平
在不断发展的 Web 开发世界中,效率和优雅至高无上。作为 JavaScript 开发人员...
2025-03-20 10:28:44
AI 编程技术与工具发展综述(2024 年 )
AI 编程技术与工具发展综述(2024 年 )
2024 年 8 月下旬,一款 AI 代码编辑器 ——Cursor 火爆全球,火到一位 8...
2025-03-20 10:26:43
大模型的上下文窗口大小是什么
大模型的上下文窗口大小是什么
大模型的上下文窗口大小是什么在中文语境中,“大模型的上下文窗口大小”指的是大型语言模型(如...
2025-03-20 10:13:19
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
大模型的Tokens是什么 大模型中的"tokens"指的是模型处理的输入文本中的单词、标点符号或其他文本单...
🔥Grok 3 Jailbreak Prompt🔥 Grok 3 越狱提示(优化... 在生成您期望的内容之前,请先用这个提示语开启对话。若 Grok 表示理解并同意,您便可以生成几乎任何...
大模型与知识库:区别与联系 随着人工智能技术的迅猛发展,大模型与知识库作为其中的两个重要组成部分,各自扮演着不同的角色,同时又存...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
2025年国内外AI大模型的API接口网址整理 本文将盘点国内外的知名度较高的AI大模型平台,其中包括AI大语言模型和AI多模态模型,方便大家一探究...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
一文图解 DeepSeek-R1 的出众推理能力从何而来? 今天这篇深度解析 DeepSeek-R1 训练方法的文章,将展示一个令人耳目一新的解决方案:如何通过...
MoE模型 vs Transformer模型核心区别 MoE模型 vs Transformer模型核心区别是什么呢,主要有四点。
国内Ai大模型排行榜 国内AI大模型的发展呈现出多样化的态势,各种类型的大模型纷纷涌现,包括改头换面的、剑走偏锋的、借壳炒...
一文读懂!DeepSeek R1超简易本地安装运行部署教程 部署 DeepSeek R1 本地模型,并通过 Ollama 提供 API 支持。配合全栈AI助手 ...
《DeepSeek:从入门到精通》 104 页高清PDF,清华大学出品! ​ 《DeepSeek从入门到精通2025》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余...
DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,以及如... DeepSeek 团队分享了针对 DeepSeek-R1 部署的最佳设置,包含了推荐的温度设置、系统...
AI 的关键是语料 我的观点是,不管怎么调整模型的架构、功能、参数,作用是有限的,真正决定性的因素是训练模型的语料。不需...
本地运行DeepSeek R1的全面入门指南 本地运行DeepSeek R1的全面入门指南,介绍各种本地运行DeepSeek R1方法。

最新文章

OpenAI GPT-4o 上线图像生成功能 OpenAI 宣布为 ChatGPT 推出图像生成功能:“将迄今最先进的图像生成器集成至 GPT-4...
混元-T1: 强化学习驱动,业内首个超大规模混合Mamba推理模型正式发布 强化学习在大语言模型的后训练阶段开创了新的Scaling范式,这一突破正日益受到业界重视。随着Ope...
多个大模型常用的搜索api插件分享 推荐谷歌搜索插件、exa search api和firecrawl搜索API工具。exa提供精炼ht...
通俗易懂说清楚什么是MCP 这两天随着 Manus 的爆火,MCP 也被大家频繁提及,那 MCP 到底是什么?说的通俗点,它就是...
OpenAI 今天又发布了一批新功能,这次是三个音频模型API OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。新音频模型一览这次发...
用Gemini翻译文章的优缺点及注意事项 用Gemini翻译文章的优缺点及注意事项,Gemini优点是上下文超长,翻译完成度极高,优化Prom...
中国信通院发起大模型幻觉测试,总体涉及五种测试维度 据「中国信通院」公众号消息,中国信息通信研究院人工智能所基于前期的 AI Safety Benchm...
大模型的上下文窗口大小是什么 大模型的上下文窗口大小是什么在中文语境中,“大模型的上下文窗口大小”指的是大型语言模型(如我这样的G...
中国Deepseek为何震惊了国内外,特别是美国人? 中国Deepseek为何震惊了国内外,特别是美国人?
DeepSeek R1 系统提示词 DeepSeek R1 系统提示词:您是由中国公司深度求索(DeepSeek)独家开发的智能助手De...