工具&规则 · 案例复盘 · near_source · Score 82

开源Agent战报：3个任务，Codex 12.5美元 vs 我们4.5美元，质量打平Claude Code

原始标题：同样 3 个任务， Codex 12.5 美金、我们 4.5 美金，质量还打平 Claude Code —— 开源 Agent 满月战报

一句话摘要

V2EX 分享创造：开帖先扔个福利（也是写这帖的由头之一）：我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动—— claude-fable-5 上新，已经能直接用了； Gemini 全系限时 8 折：庆祝 gemini-3.5-fla…

内部判断：可选选题 · 质量闸提示缺口：核心事实没有来源：成本对比（4.5 vs 12.5美元）和质量打平Claude Code仅来自作者自述，无第三方验证。

原始线索

开帖先扔个福利（也是写这帖的由头之一）：我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动—— claude-fable-5 上新，已经能直接用了； Gemini 全系限时 8 折：庆祝 gemini-3.5-flash 等三款新模型上线，调用即享、不用手动开。AI Keys 本身就是按模型官方价结算、不加价，只收 5% 通道费，叠完这波是真香。好，正题。一个月前我在 V2EX 发了第一帖，今天它满月了一个月前我发过一帖：《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布，最省 Token 的开源 AI Agent 》那帖底下有几位老哥的反馈，我憋了一个月： "省是省，可你这开源的，效果真能跟 Claude Code / Codex 比？便宜没好货吧。" 这话我服气。说实话，很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板。它俩确实强，这不丢人。但"便宜没好货"这五个字，作为一个开源项目的作者，听着是真不舒服。所以这一个月我没光顾着抠 Token ，专门组织了一场同台 benchmark ，就为了堵这句话：开源的、省钱的，到底配不配跟那两位坐一桌。今天满月，把这个月攒下的真实数据全摊开，欢迎来拍。先自报家门： OpenClacky ，一个 100% 开源（ MIT ）、BYOK 的 AI Agent 。注意，不是"coding agent"——它是个通用 Agent ：写代码只是其中一项，更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ，任务也是按"通用"来设计的，不是单纯比谁代码写得好。用用户的一句话来说：OpenClacky 可以完全代替各类 Agent ，不是平替是代替，尤其试试 webui ，比用飞书控制好用太多了，token 只有原来的 1/5 ，而且里面有写代码模式，这个可平替 ClaudeCode

为什么现在看：AI Agent成本是当前热点，开源方案崛起引发讨论。

收集原则判断：ai-frontier

原始链接：https://www.v2ex.com/t/1219884

内部查证记录

可选选题：质量闸提示缺口：核心事实没有来源：成本对比（4.5 vs 12.5美元）和质量打平Claude Code仅来自作者自述，无第三方验证。

AI Agent成本是当前技术人选择工具的核心考量，开源方案声称能大幅降低成本，但缺乏第三方验证。如果成本优势属实，可能改变小团队和独立开发者的工具选型；如果夸大，则可能误导读者。

报告来源：deepseek · 可信度 55.0 · topic-selection-dossier-v3

这件事目前能确认什么

核心问题：开源Agent OpenClacky声称在3个任务上成本仅为Codex的1/3、质量与Claude Code持平，这一成本优势是否真实、可持续，且对普通技术人有实际价值？

OpenClacky是一个100%开源（MIT）、BYOK的通用AI Agent，自称Token效率最高。
作者在V2EX发帖称，在3个任务上，OpenClacky成本4.5美元，Codex 12.5美元，质量与Claude Code打平。
项目官网（openclacky.com）有benchmark页面，显示3个任务总成本：OpenClacky $5.10，Claude Code $5.49，OpenClaw $15.70，Hermes $30.14。
GitHub仓库（clacky-ai/openclacky）存在，但star数、活跃度等未在证据中明确。
Reddit上有关于OpenClaw（名称相似项目）的负面讨论，但OpenClacky的用户反馈证据不足。
Codex和Claude Code的定价信息可从第三方网站获取，但官方定价页面未直接抓取。

时间线

2026-04-30: OpenClacky发布benchmark结果（官网显示）
2026-05-xx: 作者在V2EX发布满月战报帖
2026-06-09: 第三方网站发布Codex和Claude Code定价分析

证据与依据

V2EX帖子

作者自述成本对比（4.5 vs 12.5美元）和质量打平Claude Code

weak · https://www.v2ex.com/t/1219884

OpenClacky官网benchmark页面

显示3个任务总成本对比（OpenClacky $5.10, Claude Code $5.49等）

near_source · https://www.openclacky.com/benchmark

GitHub仓库

项目存在，MIT许可证，但活跃度未明确

official · https://github.com/clacky-ai/openclacky

MorphLLM定价页面

Codex定价信息（$20 Plus, $100 Pro等）

media · https://www.morphllm.com/codex-pricing

MorphLLM定价页面

Claude Code定价信息（$20 Pro包含Claude Code）

media · https://www.morphllm.com/claude-code-pricing

Reddit讨论

对OpenClaw（类似名称项目）的负面评价，但非直接针对OpenClacky

weak · https://www.reddit.com/r/LocalLLaMA/comments/1skce14/

逻辑能不能闭环

部分闭环。成本数字有来源，但测试任务细节、评估标准、第三方验证缺失，逻辑链不完整。

可以继续追的方向

成本对比分析：拆解OpenClacky与Codex/Claude Code的真实成本构成：读者最关心成本是否真实，需要详细拆解API费用、缓存命中率、隐性成本等
还需要：需要获取OpenClacky benchmark的详细日志、Codex/Claude Code官方定价
开源Agent的可靠性陷阱：从OpenClacky案例看迁移风险：读者可能被低成本吸引而忽略维护、兼容性、学习成本等风险
还需要：需要用户负面反馈、长期使用案例、项目维护活跃度数据
AI Agent选型决策框架：成本、效果、风险三维度评估：帮助读者建立系统化选型方法，避免被单一指标误导
还需要：需要多个Agent的对比数据、行业基准、决策模型

还缺哪些基础概念

OpenClacky的3个测试任务具体是什么？是否具有代表性？
成本计算是否包含API调用失败重试、错误处理等隐性成本？
质量打平Claude Code的评估标准是什么？是否有第三方或盲测？
OpenClacky的GitHub仓库活跃度、维护团队背景、社区支持情况
Codex和Claude Code在相同任务上的实际成本数据来源（官方或第三方）
OpenClacky是否支持主流模型（如GPT-4、Claude 3.5）？BYOK模式下的实际成本
用户反馈中是否有负面评价或失败案例？
OpenClacky的许可证（MIT）是否允许商业使用？有无专利风险？

还缺哪些资料素材

OpenClacky GitHub仓库的README、star数、贡献者、最近更新日期
OpenClacky benchmark的详细任务描述、评估指标、原始日志
至少2个独立用户对OpenClacky的评测或反馈（正面和负面）
Codex和Claude Code的官方定价页面（非第三方）
AI Agent成本对比的行业报告或第三方分析

不能写成结论的地方

OpenClacky成本仅为Codex的1/3（需验证任务和成本构成）
质量打平Claude Code（需验证评估标准）
开源方案普遍更省钱（需考虑隐性成本）
普通技术人应迁移到OpenClacky（需评估风险和适用场景）

下一步补证检索词

OpenClacky benchmark tasks details and evaluation criteria
OpenClacky GitHub repository stars, contributors, last commit
OpenClacky user reviews and real-world usage cases
OpenAI Codex official pricing page 2026
Anthropic Claude Code official pricing page 2026
OpenClacky vs OpenClaw: are they the same project?
OpenClacky license commercial use restrictions MIT

停止信号

如果OpenClacky的benchmark任务细节无法获取或明显偏向其优势领域
如果成本计算被第三方证明遗漏了重大隐性成本
如果用户反馈普遍负面或项目已停止维护
如果Codex/Claude Code官方定价与第三方数据差异巨大

原始事实和证据入口

事实入口

confirmed_fact：V2EX 分享创造发布/收录了这条原始线索：同样 3 个任务， Codex 12.5 美金、我们 4.5 美金，质量还打平 Claude Code —— 开源 Agent 满月战报来源

已确认部分

标题、来源 URL、来源类型、抓取时间已记录。
该条线索来自稳定公开源，而不是强反爬论坛或截图转述。

证据入口

V2EX 分享创造 · near_source · 原始线索和事实入口

来源优先级：P2 可参考源

GitHub Actions 稳定抓取：True

必须知道的边界

存疑点

测试任务是否具有代表性
成本计算是否包含所有隐性成本

继续深挖方向

验证开源Agent的测试方法、成本计算是否公允，收集更多用户反馈。

继续追官方文档、价格页、GitHub 仓库、真实用户案例或反方证据。
确认成本、门槛、合规、平台规则或岗位影响的具体边界。
把所有无证据、弱证据和推断点显式标记，等待补证后再升级结论。

懂行人可能会挑刺

不能把单条线索写成已验证机会。
不能把技术可实现直接推导为商业可赚钱。
涉及价格、收益、比例时必须继续找来源或公式。

不能写成结论

不要声称老花已经实操验证。
不要声称普通人都能复制。
不要在证据不足时给完整行动方案。

后续补证入口

这里不替你决定是否写，只保留原始来源、证据入口、存疑点和继续检索词，供个人资产系统或人工判断引用。

继续检索词：

开源Agent战报：3个任务，Codex 12.5美元 vs 我们4.5美元，质量打平Claude Code 原始项目 GitHub 复盘
开源Agent战报：3个任务，Codex 12.5美元 vs 我们4.5美元，质量打平Claude Code 收入增长证据
开源Agent战报：3个任务，Codex 12.5美元 vs 我们4.5美元，质量打平Claude Code 失败限制反方证据