XM集团

深夜重磅,全球首个混合推理模型发布,Claude 能“思考”了(2025年02月25日)

XM

就在今天,Claude 3.7 Sonnet正式发布 。

作为Claude有史以来最智能的模型 ,它采用混合推理方式,既能快速生成响应,也能进行深入的逐步推理。

一个模型 ,两种思考模式。

Anthropic还发布了一款智能编程工具——Claude Code 。

官方表示,Claude 3.7 Sonnet和Claude Code标志着AI迈向真正增强人类能力的重要一步,不仅能深入推理、独立执行任务 ,还能高效协作 ,让AI在现实世界中发挥更大价值。

太长不看,省流版如下:

Claude 3.7 Sonnet:全球首款双模式混合推理模型,标准模式快速响应 ,扩展思考模式进行深度自我反思,在数学 、物理和编程等复杂任务上表现卓越,注重实用导向 ,不必要拒绝减少45%,强化代码协作能力;

Claude Code:直接在终端理解并操作代码库,能一次完成需45分钟以上的人工编程任务 ,专长于测试驱动开发、复杂调试和大规模代码重构,全面支持代码编辑、测试执行等核心开发流程。

全球首款混合推理模型发布,你的Claude会思考了

新发布的Claude 3.7 Sonnet不仅引入了详细的逐步推理 ,而且也公开了“思考 ”过程 。感谢DeepSeek的内卷,推动了行业透明度的提升 。

就像人类用同一个大脑既能快速反应,又能深入思考一样 ,Anthropic同样认为推理能力不应依赖于单独的模型。

最好是 ,一个模型搞定所有场景。

用户可以自由选择是让Claude 3.7 Sonnet快速作答,还是让其进行更长时间的深度思考 。

在标准模式下,它是Claude 3.5 Sonnet的升级版;切换到扩展思考(Extended Thinking)模式(可简单理解为推理) ,它会在回答前进行自我反思,大幅提升在数学 、物理、指令理解和编程等复杂任务上的表现。

从基准测试结果来看,Claude 3.7 Sonnet(扩展思维版)适用于强逻辑推理和数学任务 ,而Grok 3 Beta和DeepSeek R1则在特定任务(推理、数学竞赛)上表现更佳。

DeepSeek R1在数学解题能力(97.3%)方面最强,同时在其他任务上也有不错的表现 。

在推理模型的优化过程中,Anthropic减少了对数学和计算机科学竞赛问题的侧重 ,更专注于满足企业对LLM的实际应用需求。

在评估AI解决真实软件问题能力的SWE-bench Verified基准测试中,Claude 3.7 Sonnet达到了行业领先水平。该模型在TAU-bench测试中也表现不错,拳打旧版本 ,脚踢OpenAI o1 。

值得一提的是,Claude 3.7 Sonnet在Anthropic内部的Pokémon游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。

该模型现已适用于所有Claude订阅计划 ,包括免费版 、专业版 、团队版和企业版 ,同时也可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI访问。

值得注意的是,除免费版外,所有平台均支持扩展思考模式(Extended Thinking Mode) 。

当通过API使用Claude 3.7 Sonnet时 ,你还可以告诉Claude思考不超过N个token。对于任何N值,其输出限制为128K个token。

无论使用哪种模式,定价与前代模型保持一致 。输入100万个token收费3美元 ,输出100万个token(包括思考过程中使用的token)收费15美元 。

一直以来,Claude的编程能力都挺拿得出手,也因此成为许多开发者的首选模型 ,现在,新发布的Claude 3.7 Sonnet进一步放大了这个优势。

Cursor、Cognition 、Vercel、Replit和Canva等公司均确认该模型在处理复杂代码库、高级工具使用 、代码修改规划和全栈更新处理等方面表现出色。

为了优化用户体验,GitHub集成功能已向所有订阅计划开放 ,开发者可以直接将代码库连接到Claude,实现更高效的协作 。

无论是修复Bug、开发新功能还是完善文档,Claude 3.7 Sonnet都能为个人项目和企业级GitHub代码库提供更好的支持。

在安全性方面 ,通过与外部专家合作 ,相比前代模型,Claude 3.7 Sonnet据说能更准确地区分恶意请求和正常请求,不必要的拒绝减少了45% ,能够提供更流畅的交互体验。

截取自Claude 3.7 Sonnet系统卡

代码写到一半想放弃?试试把复杂问题甩给Claude Code

Anthropic还推出了一款智能编程工具——Claude Code,目前仅作为研究预览版限量开放 。

代码写到一半想放弃?开发者可以直接在终端中将这些复杂问题交给ClaudeCode处理。

Claude Code是一个主动协作的AI编程助手,能够搜索和阅读代码、编辑文件 、编写并运行测试、提交和推送代码到GitHub ,以及使用命令行工具等。

据Anthropic官方介绍,在早期测试中,Claude Code能一次性完成通常需要45分钟以上的人工任务 ,特别是在测试驱动开发(TDD)、调试复杂问题和大规模重构方面表现突出 。

Claude Code能够直接理解开发者的代码库,并通过自然语言命令帮助用户更高效地编码。它可以无缝集成到开发环境中,无需额外的服务器或复杂的配置 ,极大地简化了工作流程。

其核心功能包括编辑文件 、修复Bug、回答关于代码架构和逻辑的问题、执行测试 、修复测试错误 、进行代码格式检查,以及搜索Git历史记录、解决合并冲突、创建提交和拉取请求等 。

Anthropic表示,在接下来的几周内 ,他们计划持续优化Claude Code ,重点改进包括提升工具调用的稳定性 、支持长时间运行的命令、改进应用内的渲染效果,以及增强Claude对自身能力的理解。

这次发布预览研究版本也是希望深入了解开发者如何使用Claude进行编程,从而为进一步优化未来的模型版本提供参考。

感兴趣的开发者在官方网站查看相关事项 ,指路:https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

AI发展速度太快,连起名都跟不上了?

X网友倒是用上了,不过注意点有点偏差 ,一年前编写的越狱提示词还能用上 。

询问strawberry里有多少个r,Claude Sonnet 3.7虽然答错了,但官方似乎特意给这个问题里埋了一个彩蛋 。不得不说 ,官方是懂怎么玩梗的。

知名博主@rowancheung提前用上了Claude 3.7 Sonnet,并盛赞该模型为世界上最好的编码AI模型,在接收到一个简单的指令后 ,就生成了一个类似Minecraft的游戏,并且可即刻运行。

耗费的推理Token越多,Claude 3.7 Sonnet绘制的“彩虹独角兽”效果越好 。

我们也简单上手体验了一下Claude 3.7 Sonnet。


在模型选择栏切换点击“Extended” ,即可进入扩展思考模式。

烧一根不均匀的绳要用一个小时 ,如何用它来判断半个小时?烧一根不均匀的绳,从头烧到尾总共需要一个小时 。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?

一道简单的推理题 ,差点把Claude 3.7 Sonnet的CPU干烧了。

相信你已经注意到,与DeepSeek R1展示的思考过程相比,Claude 3.7 Sonnet公开的思考过程相对客观、缺乏个性化表达。

这是有意为之的设计 。

Anthropic没有对模型的思维过程进行标准角色训练 ,而是希望给予Claude最大自由度进行自主思考,但就像人类思维一样,这可能包含不完全正确或尚未成熟的想法。

并且 ,Anthropic认为所谓“思考 ”过程不一定真实反映了AI的内部决策逻辑,因此,Anthropic未来将基于用户反馈和研究决定是否继续公开Claude的思维链。

有趣的是 ,我们之前提到过,随着各家新模型的相继发布,各类版本号和命名规则也是让人眼花缭乱 。

去年当OpenAI CEO Sam Altman被问及公司产品的命名策略时 ,他也坦言相当头疼。Anthropic CEO Amodei曾表示 ,虽然Claude的命名方式在早期看起来不错,但随着模型的快速迭代和更新,沿用的命名体系同样变得捉襟见肘。

他指出 ,目前没有任何AI公司真正“搞定命名”这一问题,大家都在努力寻找更简单 、更清晰的命名方式 。这或许是AI巨头们少有达成的共识 。

Anthropic首席产品官Mike Krieger今天也在X平台公布了Claude 3.7 Sonnet的幕后命名花絮。内心的纠结过程大概是这样