开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code
这是不是一个值得进入写作池的选题
可选选题:质量闸提示缺口:核心事实没有来源:成本对比(4.5 vs 12.5美元)和质量打平Claude Code仅来自作者自述,无第三方验证。
程序员/技术经理视角:成本对比、开源vs闭源、Agent实际效果。泛兴趣读者会被“省钱”和“打平”吸引。
原始线索
开帖先扔个福利(也是写这帖的由头之一): 我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动—— claude-fable-5 上新 ,已经能直接用了; Gemini 全系限时 8 折 :庆祝 gemini-3.5-flash 等三款新模型上线, 调用即享、不用手动开 。AI Keys 本身就是按模型官方价结算、不加价,只收 5% 通道费,叠完这波是真香。 好,正题。 一个月前我在 V2EX 发了第一帖,今天它满月了 一个月前我发过一帖: 《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布,最省 Token 的开源 AI Agent 》 那帖底下有几位老哥的反馈,我憋了一个月: "省是省,可你这开源的,效果真能跟 Claude Code / Codex 比?便宜没好货吧。" 这话我服气。说实话,很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板 。它俩确实强,这不丢人。 但"便宜没好货"这五个字,作为一个开源项目的作者,听着是真不舒服。所以这一个月我没光顾着抠 Token , 专门组织了一场同台 benchmark ,就为了堵这句话 :开源的、省钱的,到底配不配跟那两位坐一桌。 今天满月,把这个月攒下的真实数据全摊开,欢迎来拍。 先自报家门: OpenClacky ,一个 100% 开源( MIT )、BYOK 的 AI Agent 。 注意,不是"coding agent"——它是个 通用 Agent :写代码只是其中一项,更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ,任务也是按"通用"来设计的,不是单纯比谁代码写得好。 用用户的一句话来说:OpenClacky 可以完全代替各类 Agent ,不是平替是代替,尤其试试 webui ,比用飞书控制好用太多了,token 只有原来的 1/5 ,而且里面有写代码模式,这个可平替 ClaudeCode
为什么现在看:AI Agent成本是当前热点,开源方案崛起引发讨论。
收集原则判断:ai-frontier
选题判断
可选选题:质量闸提示缺口:核心事实没有来源:成本对比(4.5 vs 12.5美元)和质量打平Claude Code仅来自作者自述,无第三方验证。
AI Agent成本是当前技术人选择工具的核心考量,开源方案声称能大幅降低成本,但缺乏第三方验证。如果成本优势属实,可能改变小团队和独立开发者的工具选型;如果夸大,则可能误导读者。
这件事目前能确认什么
核心问题:开源Agent OpenClacky声称在3个任务上成本仅为Codex的1/3、质量与Claude Code持平,这一成本优势是否真实、可持续,且对普通技术人有实际价值?
- OpenClacky是一个100%开源(MIT)、BYOK的通用AI Agent,自称Token效率最高。
- 作者在V2EX发帖称,在3个任务上,OpenClacky成本4.5美元,Codex 12.5美元,质量与Claude Code打平。
- 项目官网(openclacky.com)有benchmark页面,显示3个任务总成本:OpenClacky $5.10,Claude Code $5.49,OpenClaw $15.70,Hermes $30.14。
- GitHub仓库(clacky-ai/openclacky)存在,但star数、活跃度等未在证据中明确。
- Reddit上有关于OpenClaw(名称相似项目)的负面讨论,但OpenClacky的用户反馈证据不足。
- Codex和Claude Code的定价信息可从第三方网站获取,但官方定价页面未直接抓取。
时间线
- 2026-04-30: OpenClacky发布benchmark结果(官网显示)
- 2026-05-xx: 作者在V2EX发布满月战报帖
- 2026-06-09: 第三方网站发布Codex和Claude Code定价分析
证据与依据
V2EX帖子
作者自述成本对比(4.5 vs 12.5美元)和质量打平Claude Code
OpenClacky官网benchmark页面
显示3个任务总成本对比(OpenClacky $5.10, Claude Code $5.49等)
GitHub仓库
项目存在,MIT许可证,但活跃度未明确
MorphLLM定价页面
Codex定价信息($20 Plus, $100 Pro等)
MorphLLM定价页面
Claude Code定价信息($20 Pro包含Claude Code)
Reddit讨论
对OpenClaw(类似名称项目)的负面评价,但非直接针对OpenClacky
逻辑能不能闭环
部分闭环。成本数字有来源,但测试任务细节、评估标准、第三方验证缺失,逻辑链不完整。
可以继续写的方向
- 成本对比分析:拆解OpenClacky与Codex/Claude Code的真实成本构成:读者最关心成本是否真实,需要详细拆解API费用、缓存命中率、隐性成本等
- 开源Agent的可靠性陷阱:从OpenClacky案例看迁移风险:读者可能被低成本吸引而忽略维护、兼容性、学习成本等风险
- AI Agent选型决策框架:成本、效果、风险三维度评估:帮助读者建立系统化选型方法,避免被单一指标误导
还缺哪些基础概念
- OpenClacky的3个测试任务具体是什么?是否具有代表性?
- 成本计算是否包含API调用失败重试、错误处理等隐性成本?
- 质量打平Claude Code的评估标准是什么?是否有第三方或盲测?
- OpenClacky的GitHub仓库活跃度、维护团队背景、社区支持情况
- Codex和Claude Code在相同任务上的实际成本数据来源(官方或第三方)
- OpenClacky是否支持主流模型(如GPT-4、Claude 3.5)?BYOK模式下的实际成本
- 用户反馈中是否有负面评价或失败案例?
- OpenClacky的许可证(MIT)是否允许商业使用?有无专利风险?
还缺哪些资料素材
- OpenClacky GitHub仓库的README、star数、贡献者、最近更新日期
- OpenClacky benchmark的详细任务描述、评估指标、原始日志
- 至少2个独立用户对OpenClacky的评测或反馈(正面和负面)
- Codex和Claude Code的官方定价页面(非第三方)
- AI Agent成本对比的行业报告或第三方分析
不能写成结论的地方
- OpenClacky成本仅为Codex的1/3(需验证任务和成本构成)
- 质量打平Claude Code(需验证评估标准)
- 开源方案普遍更省钱(需考虑隐性成本)
- 普通技术人应迁移到OpenClacky(需评估风险和适用场景)
下一步补证检索词
- OpenClacky benchmark tasks details and evaluation criteria
- OpenClacky GitHub repository stars, contributors, last commit
- OpenClacky user reviews and real-world usage cases
- OpenAI Codex official pricing page 2026
- Anthropic Claude Code official pricing page 2026
- OpenClacky vs OpenClaw: are they the same project?
- OpenClacky license commercial use restrictions MIT
停止信号
- 如果OpenClacky的benchmark任务细节无法获取或明显偏向其优势领域
- 如果成本计算被第三方证明遗漏了重大隐性成本
- 如果用户反馈普遍负面或项目已停止维护
- 如果Codex/Claude Code官方定价与第三方数据差异巨大
原始事实和证据入口
给 GPT 前必须知道的边界
存疑点
- 测试任务是否具有代表性
- 成本计算是否包含所有隐性成本
继续深挖方向
验证开源Agent的测试方法、成本计算是否公允,收集更多用户反馈。
- 继续追官方文档、价格页、GitHub 仓库、真实用户案例或反方证据。
- 确认成本、门槛、合规、平台规则或岗位影响的具体边界。
- 把所有无证据、弱证据和推断点显式标记,等待补证后再升级结论。
懂行人可能会挑刺
- 不能把单条线索写成已验证机会。
- 不能把技术可实现直接推导为商业可赚钱。
- 涉及价格、收益、比例时必须继续找来源或公式。
不能写成结论
- 不要声称老花已经实操验证。
- 不要声称普通人都能复制。
- 不要在证据不足时给完整行动方案。
交付给 GPT 的使用入口
后续 GPT 应用应优先读取本静态页里的选题结论、判断链路、证据入口、缺口和可写方向;如果读取 JSON,则优先读取 selection_dossier 和 material_pack。
继续检索词:
- 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 原始项目 GitHub 复盘
- 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 收入 增长 证据
- 开源Agent战报:3个任务,Codex 12.5美元 vs 我们4.5美元,质量打平Claude Code 失败 限制 反方证据