skip to content
1874
告别许愿式开发:如何用确定性的工作流对抗 AI “降智”

告别许愿式开发:如何用确定性的工作流对抗 AI “降智”

/ 8 min read

最后更新:

背景

最近社区看到很多人吐槽模型降智、Codex 不如 Claude 之类的评论。这里分享一点我自己的经验吧。

我自己是刚升级到 Codex Pro 5x 的订阅用户,之前的 Plus 也使用了好几个月了。同时我也订阅了火山 Coding Plan 的 Pro 套餐,也用过一段时间 GLM5.2 作为主力/辅助编程模型。

从目前的体验来看,我几乎没感受到 GLM5.2 和 Codex medium/high/xigh 的明显差异。

我对差异好坏的评价体系为:

  1. 能否能正确完成需求,解决速度是其次。我不追求一次提问就能解决问题,反而多轮对话能让我更清楚自己的需求和问题,防止出现 AB 问题。
  2. 有没有偶尔提供一些我想不到但非常合理的方案和边界。
  3. 会不会在多轮对话中,在明显告知边界和步骤的情况下跑偏。

社区评论

我经常刷到社区的评论吐槽,包括偶尔在直播间刷到类似吐槽如下:

  1. 一行注释不写,不知道自己生成单元测试,额外多写几个不必要的类出来,也不向我逐个确认要点
  2. 模型降智太严重了,太笨了
  3. 我之前很快就能解决问题,现在慢的要死

我的感受是:你们是怎么感受出来他降智了?

首先,不排除模型真的有降智问题,但因为【模型是否真的降智】是需要用控制变量法来测试的。

这也是很多 AI 测评博主使用的主要手段。他们会准备相同且非常详细的提示词,来喂给不同的 AI 执行,最后根据已经被验证的预期来打分和评价。

有可能还会和上下文不同、上下文是否满了、安装的 SKILL的不同等相关。

所以我想抛开一些模型本身的能力之外,简单聊一下该如何能稳定 AI Agent 的能力,不管有没有真的「降智」,都能让 AI Agent 结合自己的编码喜好、项目规则,防止未来写出不符合预期的代码。

关于许愿式开发

从我了解到的社区使用场景来说,包括我自己,也受限于表达能力,会经常出现许愿式开发,期待一次对话就能解决问题。

我觉得这也没毛病,谁不想拥有一个能猜到你全部心思的私密机器人,但现实我确实目前还没有看到这种可能性。反而我更喜欢多轮对话,能让我更清楚自己的需求,防止出现 AB 问题。

但如果始终是许愿式开发,评价体系为 AI Agent 能一次性猜到我想的 = 聪明,猜不到 = 不聪明。那任何模型应该都存在这个问题,除非他能接你的脑机接口,知道你脑子里的全部上下文 。

而且由于变量的不同,会有一些可能存在的错误判断:

例如在 Claude 中聊问题 A,发现他能很快明白你的描述,能一次性按照你的心理预期完成需求。

一段时间后换到到 Codex 时,聊的是问题 B,但是他没能立马明白你的描述,得聊多轮才能按预期完成需求,不如 Claude 很快解决问题。

所以你得出结论:Claude 比 Codex 聪明,或者 Codex 降智严重。

但实际上有可能同样的提示词放到 Claude 中也未必能立马解决问题 B。

对抗 AI「 降智」的工作流

所以个人感觉许愿式开发总的来说是不稳定的。除了模型本身的能力确实是一个影响因素外,一个相对稳定的工作流是很重要的,他能很大程度对抗 AI「 降智」。

理论来说,用能力相对低一些的模型 + 稳定工作流也能解决大部分问题。

这里面最重要的就是得让 AI 知道你当前需求的足够上下文。

Superpowers 的 Brainstorming SKILL 本身的设计理念就大概是这个意思,他需要获取足够多的信息才会进入设计和开发阶段。当然毕竟它比较重和费 Token,不是所有问题都得用 Superpowers 来解决。社区中还有非常多的工具都在尝试打破「你想的 => 你表达的 => AI想的 => AI执行」这个四层表达间的壁垒。

所以 AGENTS.md/CLAUDE.md,以及一些你本地的规则/流程文档,都是非常重要的上下文。

我日常使用时,基本都会让 AI 把稳定的规则或流程固定成本地文档。

例如在和 AI 他聊完当前项目是怎么部署的、项目的架构、哪些是我喜欢的习惯、哪些是我不喜欢的设计后。都可以让 AI 沉淀成固定文档,下次让他读这些文档就知道怎么开始了。

之前在 X 上也看到一个方法论:

在和 AI 聊完和并改完 BUG 之后,可以再最后问 AI 一句:如果回到一开始,我该怎么和你描述,你才能一次性解决这个问题。

感觉可以试试,也能学习到该如何和 AI 进行交流。

关于文档存放

近期发现,我用上述工作流 Vibe Coding 时,过程中需要沉淀的项目文档越来越多。有些还不适合提交到远端仓库。所以我也基于 Git 忽略/排除,制定了一套文档存放方案,方便 AI 读取和存放。

具体可以看我的博客文章:给 Vibe Coding 中间文档找一个合适的位置

总结

总得来说,你需要经常将你的喜好规则、项目规则、项目流程等文档,沉淀到适合的地方。

只要约束的好,就几乎不会出现超出你预期范围之外的跑偏,也就不太会出现「AI 真笨啊」的场景。