工具&规则 · 案例复盘 · near_source · Score 82

开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code

原始标题:同样 3 个任务, Codex 12.5 美金、我们 4.5 美金,质量还打平 Claude Code —— 开源 Agent 满月战报

这是不是一个值得进入写作池的选题

可选选题:质量闸提示缺口:核心事实没有来源:成本对比(4.5 vs 12.5美元)和质量打平Claude Code仅来自作者自述,无第三方验证。

程序员/技术经理视角:成本对比、开源vs闭源、Agent实际效果。泛兴趣读者会被“省钱”和“打平”吸引。

原始线索

开帖先扔个福利(也是写这帖的由头之一): 我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动—— claude-fable-5 上新 ,已经能直接用了; Gemini 全系限时 8 折 :庆祝 gemini-3.5-flash 等三款新模型上线, 调用即享、不用手动开 。AI Keys 本身就是按模型官方价结算、不加价,只收 5% 通道费,叠完这波是真香。 好,正题。 一个月前我在 V2EX 发了第一帖,今天它满月了 一个月前我发过一帖: 《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布,最省 Token 的开源 AI Agent 》 那帖底下有几位老哥的反馈,我憋了一个月: "省是省,可你这开源的,效果真能跟 Claude Code / Codex 比?便宜没好货吧。" 这话我服气。说实话,很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板 。它俩确实强,这不丢人。 但"便宜没好货"这五个字,作为一个开源项目的作者,听着是真不舒服。所以这一个月我没光顾着抠 Token , 专门组织了一场同台 benchmark ,就为了堵这句话 :开源的、省钱的,到底配不配跟那两位坐一桌。 今天满月,把这个月攒下的真实数据全摊开,欢迎来拍。 先自报家门: OpenClacky ,一个 100% 开源( MIT )、BYOK 的 AI Agent 。 注意,不是"coding agent"——它是个 通用 Agent :写代码只是其中一项,更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ,任务也是按"通用"来设计的,不是单纯比谁代码写得好。 用用户的一句话来说:OpenClacky 可以完全代替各类 Agent ,不是平替是代替,尤其试试 webui ,比用飞书控制好用太多了,token 只有原来的 1/5 ,而且里面有写代码模式,这个可平替 ClaudeCode

为什么现在看:AI Agent成本是当前热点,开源方案崛起引发讨论。

收集原则判断:ai-frontier

原始链接:https://www.v2ex.com/t/1219884

选题判断

可选选题:质量闸提示缺口:核心事实没有来源:成本对比(4.5 vs 12.5美元)和质量打平Claude Code仅来自作者自述,无第三方验证。

AI Agent成本是当前技术人选择工具的核心考量,开源方案声称能大幅降低成本,但缺乏第三方验证。如果成本优势属实,可能改变小团队和独立开发者的工具选型;如果夸大,则可能误导读者。

报告来源:deepseek · 可信度 55.0 · topic-selection-dossier-v3

这件事目前能确认什么

核心问题:开源Agent OpenClacky声称在3个任务上成本仅为Codex的1/3、质量与Claude Code持平,这一成本优势是否真实、可持续,且对普通技术人有实际价值?

  • OpenClacky是一个100%开源(MIT)、BYOK的通用AI Agent,自称Token效率最高。
  • 作者在V2EX发帖称,在3个任务上,OpenClacky成本4.5美元,Codex 12.5美元,质量与Claude Code打平。
  • 项目官网(openclacky.com)有benchmark页面,显示3个任务总成本:OpenClacky $5.10,Claude Code $5.49,OpenClaw $15.70,Hermes $30.14。
  • GitHub仓库(clacky-ai/openclacky)存在,但star数、活跃度等未在证据中明确。
  • Reddit上有关于OpenClaw(名称相似项目)的负面讨论,但OpenClacky的用户反馈证据不足。
  • Codex和Claude Code的定价信息可从第三方网站获取,但官方定价页面未直接抓取。

时间线

  • 2026-04-30: OpenClacky发布benchmark结果(官网显示)
  • 2026-05-xx: 作者在V2EX发布满月战报帖
  • 2026-06-09: 第三方网站发布Codex和Claude Code定价分析

证据与依据

逻辑能不能闭环

部分闭环。成本数字有来源,但测试任务细节、评估标准、第三方验证缺失,逻辑链不完整。

可以继续写的方向

  • 成本对比分析:拆解OpenClacky与Codex/Claude Code的真实成本构成:读者最关心成本是否真实,需要详细拆解API费用、缓存命中率、隐性成本等
    还需要:需要获取OpenClacky benchmark的详细日志、Codex/Claude Code官方定价
  • 开源Agent的可靠性陷阱:从OpenClacky案例看迁移风险:读者可能被低成本吸引而忽略维护、兼容性、学习成本等风险
    还需要:需要用户负面反馈、长期使用案例、项目维护活跃度数据
  • AI Agent选型决策框架:成本、效果、风险三维度评估:帮助读者建立系统化选型方法,避免被单一指标误导
    还需要:需要多个Agent的对比数据、行业基准、决策模型

还缺哪些基础概念

  • OpenClacky的3个测试任务具体是什么?是否具有代表性?
  • 成本计算是否包含API调用失败重试、错误处理等隐性成本?
  • 质量打平Claude Code的评估标准是什么?是否有第三方或盲测?
  • OpenClacky的GitHub仓库活跃度、维护团队背景、社区支持情况
  • Codex和Claude Code在相同任务上的实际成本数据来源(官方或第三方)
  • OpenClacky是否支持主流模型(如GPT-4、Claude 3.5)?BYOK模式下的实际成本
  • 用户反馈中是否有负面评价或失败案例?
  • OpenClacky的许可证(MIT)是否允许商业使用?有无专利风险?

还缺哪些资料素材

  • OpenClacky GitHub仓库的README、star数、贡献者、最近更新日期
  • OpenClacky benchmark的详细任务描述、评估指标、原始日志
  • 至少2个独立用户对OpenClacky的评测或反馈(正面和负面)
  • Codex和Claude Code的官方定价页面(非第三方)
  • AI Agent成本对比的行业报告或第三方分析

不能写成结论的地方

  • OpenClacky成本仅为Codex的1/3(需验证任务和成本构成)
  • 质量打平Claude Code(需验证评估标准)
  • 开源方案普遍更省钱(需考虑隐性成本)
  • 普通技术人应迁移到OpenClacky(需评估风险和适用场景)

下一步补证检索词

  • OpenClacky benchmark tasks details and evaluation criteria
  • OpenClacky GitHub repository stars, contributors, last commit
  • OpenClacky user reviews and real-world usage cases
  • OpenAI Codex official pricing page 2026
  • Anthropic Claude Code official pricing page 2026
  • OpenClacky vs OpenClaw: are they the same project?
  • OpenClacky license commercial use restrictions MIT

停止信号

  • 如果OpenClacky的benchmark任务细节无法获取或明显偏向其优势领域
  • 如果成本计算被第三方证明遗漏了重大隐性成本
  • 如果用户反馈普遍负面或项目已停止维护
  • 如果Codex/Claude Code官方定价与第三方数据差异巨大

原始事实和证据入口

事实入口

  • confirmed_fact:V2EX 分享创造 发布/收录了这条原始线索:同样 3 个任务, Codex 12.5 美金、我们 4.5 美金,质量还打平 Claude Code —— 开源 Agent 满月战报 来源

已确认部分

  • 标题、来源 URL、来源类型、抓取时间已记录。
  • 该条线索来自稳定公开源,而不是强反爬论坛或截图转述。

证据入口

来源优先级:P2 可参考源

GitHub Actions 稳定抓取:True

给 GPT 前必须知道的边界

存疑点

  • 测试任务是否具有代表性
  • 成本计算是否包含所有隐性成本

继续深挖方向

验证开源Agent的测试方法、成本计算是否公允,收集更多用户反馈。

  • 继续追官方文档、价格页、GitHub 仓库、真实用户案例或反方证据。
  • 确认成本、门槛、合规、平台规则或岗位影响的具体边界。
  • 把所有无证据、弱证据和推断点显式标记,等待补证后再升级结论。

懂行人可能会挑刺

  • 不能把单条线索写成已验证机会。
  • 不能把技术可实现直接推导为商业可赚钱。
  • 涉及价格、收益、比例时必须继续找来源或公式。

不能写成结论

  • 不要声称老花已经实操验证。
  • 不要声称普通人都能复制。
  • 不要在证据不足时给完整行动方案。

交付给 GPT 的使用入口

后续 GPT 应用应优先读取本静态页里的选题结论、判断链路、证据入口、缺口和可写方向;如果读取 JSON,则优先读取 selection_dossiermaterial_pack

继续检索词:

  • 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 原始项目 GitHub 复盘
  • 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 收入 增长 证据
  • 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 失败 限制 反方证据