【Claude4正式发布】（锐评见长图）Claude4是由Anthro

【Claude 4 正式发布】（锐评见长图）

Claude 4 是由 Anthropic 开发的下一代 AI 模型系列，包括 Claude Opus 4 和 Claude Sonnet 4，已于 2025 年 5 月 23 日正式发布。要点：

主要特点与改进

1. 混合推理能力：

- Claude 4 模型是混合推理模型，支持快速响应和扩展推理两种模式，用户可根据需求选择速度或深度推理。

- 支持工具使用（如网络搜索），可交替进行推理和工具调用以提高回答质量。

2. 编码能力：

- Claude Opus 4 是目前全球最佳的编码模型，在 SWE-bench 基准测试中得分 72.5%，Terminal-bench 得分 43.2%，能处理复杂、长时间运行的编码任务（例如连续编码 7 小时）。

- Sonnet 4 在编码和推理能力上显著优于 Claude 3.7 Sonnet，响应速度更快。

3. 增强的工具与集成：

- Claude Code：现已普遍可用，支持终端、IDE（如 VS Code 和 JetBrains）以及 Claude Code SDK，允许开发者直接在工作流程中委托编码任务。

- 新 API 功能包括代码执行工具、MCP 连接器、文件 API 和长达一小时的提示缓存。

4. 内存与上下文管理：

- 模型内置内存功能，可存储和更新外部文件，跟踪长时间任务的进度，类似人类记录笔记。

- 支持扩展上下文窗口（Opus 4 支持 32K 输出 token），适合处理大型数据集和复杂任务。

5. 安全与道德：

- 归类为 ASL-3 安全等级，采用严格测试和访问限制以减轻潜在风险。

- 通过训练调整，减少了约 80% 的“奖励黑客行为”（reward hacking），提高安全性和可靠性。

应用场景

- 企业应用：支持多渠道营销活动、跨职能工作流协调、复杂诉讼任务（如生成带引用的摘要判断）以及文本到 SQL 的转换。

- 开发支持：GitHub 选择 Sonnet 4 作为 Copilot 新编码代理的基础，显示其在代理场景中的竞争力。

- 研究与生产力：通过与 Google Workspace 集成和网络搜索功能（2025 年 3 月起为美国付费用户提供），Claude 4 可加速研究和信息处理。

与竞争对手的比较

- Claude Opus 4 在 SWE-bench Verified 上超越 Google 的 Gemini 2.5 Pro 和 OpenAI 的 o3，但在多模态评估（如 MMMU 和 GPQA Diamond）上略逊于 o3。

- Anthropic 强调 Claude 4 的道德 AI 设计，与 OpenAI 的 GPT 系列和 Google 的 Gemini 系列竞争，注重安全性和透明度。

未来展望

- Anthropic 计划通过频繁的模型更新持续改进 Claude 4，增强企业用例和代理功能。

- 开发者可通过“Developer Mode”访问完整推理链，满足高级提示工程需求。

总之，Claude 4 通过其强大的编码能力、灵活的推理模式和深度工具集成，标志着 Anthropic 在 AI 领域的重大进步，为企业和开发者提供了高效、安全且多功能的 AI 解决方案。

0 阅读：0

华为运用7nm技术时，美国举全国之力无情打压，仿佛有不共戴天之仇。然而小米研制出