最强编码模型Claude 4，7小时不间断写代码，连玩24小时宝可梦，GitHub已选为Copilot底层模型

时间：2025-05-23 09:56:00

AI圈子好热闹。今天凌晨，Claude终于迎来了它的重大版本升级——

Claude 4来了！

此次主要发布的有两个模型：Claude Opus 4和Claude Sonnet 4。

一经面世，就在编码、高级推理和AI Agent重新定义了新的标准，直接实现SOTA。

GitHub已经宣布，将使用Claude Sonnet 4作为 GitHub Copilot新编码Agent的基础模型。

而两个模型里最为人所津津乐道的是旗舰模型Claude Opus 4，它最引人注目的就是持续的干活，一身用不完的牛劲。

比如，它可以在连续24小时畅玩宝可梦，而之前版本Claude 3.7 Sonnet只能连续玩 45 分钟。

其客户之一，日本乐天集团（Rakuten）使用Claude Opus 4进行了一个高强度的开源代码重构任务。

谁也没想到，Opus 4直接吭哧吭哧独立运行并持续编写代码长达7小时，而且性能极、其、稳、定。

单这一个例子，就能看出它非常强的持久工作能力，以及上下文理解能力。

看遍评论区，发现使用过Claude 4几乎都给予了它高度评价，尤其是对Opus 4（不愧是旗舰模型哇）。

有人说，“Opus 4是我用上的第一个不用自己动手改，就生成高质量内容的第一个大模型”。

此外，有位最近一直用Opus搞编程的网友表示，Benchmark上的成绩完全不能代表Claude 4的成就：

它在保持进度、编写可维护的代码以及按照我的意愿和期望进行工作方面，带来了彻底的变革。这不是简单的极客行为。团队做得非常出色！

已经有网友开始直接用Claude 4来做了个俄罗斯方块，一次性就完成的那种。

值得关注的一点，今天起，所有付费用户都可以开始使用Claude 4系列模型了。

免费用户也不要慌，Anthropic给大家准备了Claude Sonnet 4。

值得一提的是，伴随Claude 4的问世，为了让开发者们能构建更强大的AI Agent，Anthropic在自家API方面上新了3个新功能，分别是：代码执行工具、MCP连接器、文件API，以及长达一小时的缓存提示能力。

至于API的定价也没变，和之前系列的Opus和Sonnet一样：

Claude Opus 4：每百万Token，输入为15美元，输出为75美元
Claude Sonnet 4：每百万Token，输入为3美元，输出为5美元

全球最强编码模型Claude 4：可独立运行7小时

此次发布两个模型Opus 4和Sonnet 4，升级的重点各有侧重。

Opus 4针对编码和长期运行的Agent工作流进行了优化。

Sonnet 4与Opus 4类似，但针对推理进行了优化，并在效率方面进行了平，这意味着它的运行成本更低。作为Sonnet 3.7的重大升级，它能精准地响应你的指令。

他们俩都是混合模型，提供两种操作模式：一种用于快速响应，另一种用于“更深层次的推理”。

旗舰模型Opus 4，在SWE-bench（72.5%）和 Terminal-bench（43.2%）上均实现领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色，能够连续工作数小时，其性能远超所有 Sonnet 模型，并显著扩展了 AI Agent的功能。

Claude Sonnet 4其实也不差，它在SWE-bench 上实现了 72.7% 的得分。

两个模型在编码、推理、多模态能力和Agent任务方面均表现出色。

那新模型到底怎么强？以旗舰模型为例，看看各种前沿Agent产品咋说——

Cursor称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。

Block称其为第一个在其Agent（代号 goose）中在编辑和调试过程中提高代码质量，同时保持完整性能和可靠性的模型。

Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。

除了模型本身强大，他们还提供了一些新的功能和改进：

工具使用、并行工具执行和内存改进，以及思维摘要功能，内存能力的提升。

工具使用（Beta版）：两种模型都可以在扩展思考过程中使用工具（例如网络搜索），这样Claude一边思考推理一边使用工具交替进行。

并行工具使用，这样一来，模型可以更精确地遵循指令，并且在开发人员允许访问本地文件时，能显著提高记忆能力，提取并保存关键事实，以保持连续性并随着时间的推移建立隐性知识。

他们还引入思维摘要功能，使用较小的模型来浓缩冗长的思考过程。不过只有大约 5%的情况下需要这种总结，大多数思维过程都很短，足以完整显示。

内存能力方面，Claude Opus 4显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息，以帮助改进游戏体验。

这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如，Opus 4在玩宝可梦时能够创建“导航指南”。

几个月前，Anthropic推出了一场名为“Claude Plays Pokémon”的直播，以展示Claude 3.7 Sonnet 在《宝可梦红版》中的能力。

该演示旨在秀肌肉，比如在极少量的人类干预下，Claude如何分析游戏，并逐步做出决策。

Anthropic技术团队的成员表示，选择《宝可梦红版》来搞事情，是因为这个游戏“是一个简单的游乐场”，回合制，且不需要及时反映。终极目标则为了研究如何让Claude像Agent一样，独立地为用户执行复杂任务。

Claude 3.7 Sonnet玩这款游戏时遇到了不少的困难，比如在一个城市中困了几十个小时，并且难以识别非玩家角色，这极大地阻碍了它在游戏中的进展。

但Opus 4就不一样了，它在长期记忆和规划能力上有所提高。与此同时，当Opus 4意识到需要某种特定的能力才能继续前进后，它花了两天时间提升它的技能，然后继续玩游戏。

此外，他们还显著减少了模型使用捷径或漏洞完成任务的行为。在处理一些容易受到捷径和漏洞影响的Agent任务中，这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。

智能代码助手Claude Code正式全面开放

除此之外，Anthropic还正式发布了Claude Code。

这是一个智能代码助手工具，旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库，让你能够将修复bug、实现新功能、代码重构、编写测试、跨文件修改等大量工程任务交给AI完成。

今年2月时，Anthropic曾在首届“Code with Claude”开发者大会上宣布推出Claude Code。

现在，它正式上线，

并且已经集成进更多开发工作流程中：终端，IDE，或者使用Claude Code SDK在后台运行。

我们详细来看——

首先是Claude Code集成到IDE。

此次，Anthropic推出了新的VS Code和 JetBrains Beta扩展。

这一举措直接把Claude Code集成到了IDE里，也就是说，它已经和开发者们熟悉的代码编辑器无缝结对。

至此，大家对着Claude提出的修改内容会被直接嵌入到文件里，从而简化了代码审查和跟踪过程。

其次，Anthropic还发布了一个可扩展的Claude Code SDK。

利用Claude Code SDK，朋友们可以用和Claude Code相同的核心Agent来构建自己的Agent和应用程序啥的。

目前，Claude Code在GitHub上放出了Beta版本。

在GitHub上Pull Request的时候，只需要「@Claude Code」，就可以回应评审人员的反馈、修复持续集成错误或修改代码。

如果想安装它的话，大家记得运行“/install-github-app”，就可以安装Beta版的插件了。

Anthropic产品负责人Scott White表示，Claude Code不仅适合公司——它们希望旗下的软件工程师们使用AI来提高自身专业技能，也适合个人——包括那些不懂编程的人。

如果一位产品经理想出了一个新点子，就不用费劲地用文字来解释概念了。直接找Claude Code，就能创造关于这个新点子的雏形。

“去年年底就停止了对聊天机器人的投资”

之所以能在编程能力上如此惊艳，与Anthropic战略转向有关。

Anthropic首席科学官Jared Kaplan接受采访时表示，该公司于去年年底停止对聊天机器人的投资。

现在的重点很明确——

专注于提高Claude执行复杂任务的能力，例如研究和编程，甚至编写整个代码库。

去年起，Anthropic就开始训练Claude 4系列，“训练过程中，内部确实存在一些困难。因为我们在训练这些模型时使用的一些新基础设施，使得团队在启动所有系统方面非常紧张。”

Jared Kaplan承认，任务越复杂，模型脱轨的风险就越大。

因此他们真正致力于解决这个问题，以便人们可以一次性将大量工作委托给给Claude。

不过，首席产品官Mike Krieger此前也表示过，Anthropic没有仅仅针对编程来进行迭代。

他的原话是这样说的：

我们在两个方面都在不断开拓创新。一方面涉及到编程部分以及整体的自主行为，这为许多编程初创企业提供了强大的动力。另一方面，我们也在探索这些模型如何能够真正从经验中学习，并且能够成为非常有用的写作伙伴。

Mike Krieger表示，Claude 4之前，他仅仅是把大模型作为一个思考伙伴，大部分写作还是他自己亲自上手的。

但现在，Claude 4出现后，他几乎已经把写东西这个事完全委托给Claude Opus 4了，并且“难以辨认是我写的还是AI写的”。

华尔街等方面应该是对Anthropic的选择表示了满意与支持——

上周，Anthropic获得了一笔25亿美元、为期五年的循环信贷额度，用来增强AI竞争的底气，毕竟研究和训练真的非常花钱。

同样也是上周，Anthropic公开了营收额：

其第一季度年化营收达到20亿美元，较上一季度的10亿美元增长了一倍多。

而Anthropic年度消费超过10万美元的客户数量，较去年同期增长了八倍。

Opus 4最喜欢

模型刚发布，人类就发现了它有一些特殊的「爱好」，比如熟练地使用一些表情符号。

在 Anthropic技术报告中，他们研究了Opus 4 在“开放式自我互动”中的表现——也就是与自己对话，结果发现，一对Opus 4 模型进行了 200 次、每次 30 轮的互动，模型使用了数千个表情符号。

根据报告，Opus 4 使用“头晕”（

）表情符号最多（占 29.5%），其次是“闪亮的星星”（

）和“双手合十”（

）。

不过，模型还是对“旋风”（

）表情符号很感兴趣。一份记录显示，它们输入了2725次。

在几乎每一次开放式的自我互动中，Opus 4最终都会开始进行“意识的哲学探索”以及“抽象而愉悦的精神或冥想表达”。

而“旋风”表情符号最能捕捉到，它想要表达的意思。（Doge）

参考链接：

[1]https://www.anthropic.com/news/claude-4

[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

[3]https://www.techmeme.com/250522/p30#a250522p30

[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/

[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html

本文来自微信公众号“量子位”，作者：白交衡宇，36氪经授权发布。

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://www.21906.com/zixun/zKJlLeGJqV.html

上一篇 > 中国制造新观察：鸿蒙电脑好用的关键在生态
下一篇 > 广西龙胜发生山洪泥石流灾害现场救出1人已无生命体征