【Claude 4 正式发布】(锐评见长图)
Claude 4 是由 Anthropic 开发的下一代 AI 模型系列,包括 Claude Opus 4 和 Claude Sonnet 4,已于 2025 年 5 月 23 日正式发布。要点:
主要特点与改进
1. 混合推理能力:
- Claude 4 模型是混合推理模型,支持快速响应和扩展推理两种模式,用户可根据需求选择速度或深度推理。
- 支持工具使用(如网络搜索),可交替进行推理和工具调用以提高回答质量。
2. 编码能力:
- Claude Opus 4 是目前全球最佳的编码模型,在 SWE-bench 基准测试中得分 72.5%,Terminal-bench 得分 43.2%,能处理复杂、长时间运行的编码任务(例如连续编码 7 小时)。
- Sonnet 4 在编码和推理能力上显著优于 Claude 3.7 Sonnet,响应速度更快。
3. 增强的工具与集成:
- Claude Code:现已普遍可用,支持终端、IDE(如 VS Code 和 JetBrains)以及 Claude Code SDK,允许开发者直接在工作流程中委托编码任务。
- 新 API 功能包括代码执行工具、MCP 连接器、文件 API 和长达一小时的提示缓存。
4. 内存与上下文管理:
- 模型内置内存功能,可存储和更新外部文件,跟踪长时间任务的进度,类似人类记录笔记。
- 支持扩展上下文窗口(Opus 4 支持 32K 输出 token),适合处理大型数据集和复杂任务。
5. 安全与道德:
- 归类为 ASL-3 安全等级,采用严格测试和访问限制以减轻潜在风险。
- 通过训练调整,减少了约 80% 的“奖励黑客行为”(reward hacking),提高安全性和可靠性。
应用场景
- 企业应用:支持多渠道营销活动、跨职能工作流协调、复杂诉讼任务(如生成带引用的摘要判断)以及文本到 SQL 的转换。
- 开发支持:GitHub 选择 Sonnet 4 作为 Copilot 新编码代理的基础,显示其在代理场景中的竞争力。
- 研究与生产力:通过与 Google Workspace 集成和网络搜索功能(2025 年 3 月起为美国付费用户提供),Claude 4 可加速研究和信息处理。
与竞争对手的比较
- Claude Opus 4 在 SWE-bench Verified 上超越 Google 的 Gemini 2.5 Pro 和 OpenAI 的 o3,但在多模态评估(如 MMMU 和 GPQA Diamond)上略逊于 o3。
- Anthropic 强调 Claude 4 的道德 AI 设计,与 OpenAI 的 GPT 系列和 Google 的 Gemini 系列竞争,注重安全性和透明度。
未来展望
- Anthropic 计划通过频繁的模型更新持续改进 Claude 4,增强企业用例和代理功能。
- 开发者可通过“Developer Mode”访问完整推理链,满足高级提示工程需求。
总之,Claude 4 通过其强大的编码能力、灵活的推理模式和深度工具集成,标志着 Anthropic 在 AI 领域的重大进步,为企业和开发者提供了高效、安全且多功能的 AI 解决方案。