UStackUStack
Claude Opus 4.6 favicon

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 最新的、最智能的模型升级版,在代理式编码、复杂推理和知识工作任务方面具有行业领先的性能,目前 100 万 token 的上下文窗口处于测试阶段。

Claude Opus 4.6

什么是 Claude Opus 4.6?

Claude Opus 4.6:下一代人工智能智能

什么是 Claude Opus 4.6?

Claude Opus 4.6 代表了 Anthropic 前沿模型能力的一次重大飞跃。它是 Opus 4.5 的继任者,旨在擅长需要深度规划、持续代理行为和专家级推理的复杂多步骤任务。该模型被设计为一个高度能干的协作者,能够自主管理跨越编码、研究和专业文档的复杂工作流程。

Opus 4.6 正在关键行业评估中树立新的基准。它在代理式编码(Terminal-Bench 2.0)、复杂多学科推理(Humanity’s Last Exam)和具有经济价值的知识工作(GDPval-AA)方面展示了最先进的性能,通常以显著优势领先竞争对手。此外,Anthropic 优先考虑了安全性,确保 Opus 4.6 保持与其它领先模型相当或更优异的安全概况。

关键特性

  • 行业领先的代理式编码: 在规划、在更长时间内维持代理任务、导航大型代码库以及卓越的代码审查/调试能力以自我纠正错误方面,技能得到极大提升。
  • 海量上下文窗口(Beta): 引入了 100 万 token 上下文窗口(测试版),允许模型处理和推理极其庞大的文档、代码库或扩展对话。
  • 最先进的推理能力: 在 Humanity’s Last Exam 等复杂推理基准测试中获得最高分数,表明其在多领域问题解决方面具有卓越能力。
  • 增强的知识工作能力: 擅长运行详细的财务分析、进行深入研究,并熟练地创建和操作文档、电子表格和演示文稿。
  • 先进的工具使用和搜索: 在代理式搜索(BrowseComp)方面处于领先地位,展示了从网上查找难以获取的信息并可靠地集成外部工具的卓越能力。
  • 自适应思维和控制: 自适应思维 (Adaptive Thinking) 等功能允许模型根据上下文线索动态调整其深度推理水平,同时新的努力控制 (effort controls) 允许开发者微调智能、速度和成本。
  • 产品集成: 在 Cowork 环境中增强了自主多任务处理能力,以及 Claude in PowerPoint(研究预览版)和 Claude in Excel 的重大升级。

如何使用 Claude Opus 4.6

可通过 Anthropic API、claude.ai 和主要云平台立即访问 Claude Opus 4.6。通过 API 集成的开发者应指定 claude-opus-4-6

  1. 访问平台: 登录 claude.ai 或通过 API 集成。
  2. 任务定义: 对于复杂任务,请清晰阐述多步骤要求。Opus 4.6 在接收到宏大目标时表现出色,因为它能自主分解这些目标。
  3. 利用上下文: 对于涉及大量文档审阅或大型代码库的任务,请利用 1M token 的上下文窗口。
  4. 控制思考深度: 对于延迟至关重要的简单任务,开发者可以使用 /effort 参数(例如,将其设置为 medium 而非默认的 high)以防止过度思考并管理成本。
  5. 代理工作流程: 利用 Claude Code 组建代理团队以进行协作式问题解决,允许子代理并行处理定义的子任务。

用例

  1. 大规模软件开发: 利用 Opus 4.6 卓越的编码技能和大型上下文窗口来重构庞大的遗留代码库、对数千个文件执行全面的安全审计,或管理长期代理开发项目。
  2. 财务建模和尽职调查: 将其在 GDPval-AA 上的高性能应用于快速分析复杂的财务报告、构建复杂的估值模型,并为并购活动总结大量的法律或监管文件。
  3. 自主研究代理: 部署 Opus 4.6 进行深入的多步骤代理搜索,以综合来自不同、难以查找的在线资源的信息,创建需要跨多个领域综合信息的全面、公正的报告。
  4. 自动化文档生成: 利用其与 Microsoft Office 工具(Excel/PowerPoint)的集成,根据原始输入数据自主生成复杂、数据驱动的演示文稿或详细的财务预测。
  5. 复杂系统调试: 利用其增强的自我纠正和推理能力,通过分析长日志和跟踪跨多个组件的执行路径来诊断生产系统中微妙的、间歇性的错误。

常见问题 (FAQ)

问:Claude Opus 4.6 的定价是多少? 答:定价与以前的 Opus 级别模型保持一致,输入 token 为每百万 5 美元,输出 token 为每百万 25 美元。开发者应查阅官方定价页面以获取最新详细信息。

问:我如何管理使用 Opus 4.6 时的延迟? 答:Opus 4.6 有时会对简单任务“想得太多”,导致延迟较高。您可以通过使用 /effort 参数将思考强度从默认的“高”设置调低到“中”或更低来缓解此问题,以获得更快、要求不那么高的响应。

问:100 万 token 的上下文窗口是否立即可用? 答:1M token 上下文窗口目前处于测试阶段。访问和稳定性可能受持续的测试和推广阶段影响。

问:Opus 4.6 在财务任务上与 GPT-5.2 相比如何? 答:在 GDPval-AA 评估中,Opus 4.6 的表现显著优于 OpenAI 的 GPT-5.2,高出约 144 Elo 点,表明其在具有经济价值的知识工作方面性能更优越。

问:我可以使用此模型运行多个 AI 代理吗? 答:是的,特别是在 Claude Code 中,用户现在可以组建代理团队以协作处理任务,利用该模型改进的规划和并行执行能力。

Claude Opus 4.6 | UStack