开发工程 / 工作流案例

把你反复让 Claude Code/Codex 做的事,变成真正的工具

初级到中级 首次搭建后持续迭代 @Voxyz_ai
结果

把重复 prompt 任务沉淀成项目内工具 | checklist / script / SKILL 持续复用你的标准

适合谁

经常让 Claude Code/Codex 做 review、ticket、发布前检查等重复任务的开发者与内容团队

你上周大概让 AI 干过这些事:

把 bug 报告转成可分配的任务单。
审查一段代码。
把三个不同来源的信息合并成一份摘要。
发东西之前先检查一遍。
给一堆客户消息排优先级。
从几个数据源拉数字,看看哪些有变化。

第一次,完全正常。

第二次,也还行。

到第三次你还在复制粘贴同样的提示词时,这个任务就已经有规律了。

有规律,就意味着你可以留下一个工具。

Image
Image

这个工具不必很庞大。它可以是一个测试运行脚本、一个 deploy-preflight.md、一个 triage-checklist.md、一个 SKILL.md、AGENTS.md 里的一条新规则,或者一个每天跑一次的指标检查清单。

关键是,下次同样的工作出现时,Claude Code/Codex 不用再猜你的标准。

它应该直接从你的项目里读取:

这个任务从哪开始。
输入是什么。
好的输出长什么样。
哪个文件是事实来源。
哪些它可以自动做。
哪些地方必须停下来等人类决策。

一次性的对话不会产生复利

很多人把 Claude Code/Codex 当成一个高级聊天窗口来用。

今天:

把这个 bug 报告转成可分配的任务单。

明天:

比较这三个选项,告诉我哪个风险最小。

后天:

拉这周的数据,标记所有下降的指标。

每次都能帮你省点时间。

但每次你都得重新解释标准。

任务单需要复现步骤和优先级。
比较需要清晰的权衡利弊。
指标需要和上周对比,而不是只看原始数字。
本地通过不代表可以安全发布。
任何面向公众的内容,在人类批准前必须停下。

这就是重复自己的代价。

更好的做法:每次任务完成后,在项目文件夹里留下点东西,让下次更轻松。

今天处理一个 bug,留下一个 triage 检查清单。
今天比较选项,留下一个决策模板。
今天拉指标,留下一个每周指标脚本。
今天发现 AI 越界了,把那个审批关卡写进 AGENTS.md。

每次任务后,项目都应该多知道一点东西。

Image
Image

先定义结果,再定义步骤

我不会从写这个开始:

1. 收集信息
2. 做决策
3. 输出结果

这太模糊了。AI 读了还是得猜你到底想要什么。

更好的起点是描述“完成”长什么样。

假设你想让它给 bug 排优先级。别只说“告诉我哪些 bug 重要。”

像这样写:

目标:
确定这个 bug 报告的优先级。

输入:
- Bug 描述和复现步骤
- 影响范围(多少用户 / 哪个功能)
- 是否有临时解决方案
- 当前版本和环境

好的结果:
- 分配 P0-P3 优先级
- 解释推理过程
- 如果信息不足以决策,列出缺失的内容
- 输出格式应能直接粘贴到问题追踪器
- 最终优先级由负责人确认,绝不自动分配

有了这个详细程度,Claude Code/Codex 才知道要给你构建什么工具。

Image
Image

它很可能会给你三个版本:

一个你现在就能用的检查清单。
一个你今天就能写的小检查器。
一个值得长期保留的技能或集成。

一次性要这三个。

因为你可能根本不需要那个系统。

大多数时候,一个 40 行的脚本就够了。

我的例子:文章发布前的检查

我写文章的时候,真正写的过程很少是烦人的部分。

烦人的是发布前后那一堆小检查。

来源是否还热着。
书签数是否高于点赞数。
链接在手机上能不能用。
HTML 打开后读起来是否顺畅。
标题有没有跑题。
图片是不是好看但没用。
有没有人把本地最终包算作“已发布”。
有没有什么东西漏掉了人类审批。

每一个都很小。

漏掉一个,整篇文章就弱了。

来源不够强,文章从一开始就偏了。
原始 URL 太长,在手机上审阅很痛苦。
图片看着不错,但没教读者任何东西。
AI 把本地文件当成已发布的证据,所有下游判断都错了。
系统认为“可以发布了”,但面向公众的操作需要人类签字。

我以前处理方式是给自己写个笔记:

下次记得检查。

这个笔记没有约束力。

所以我开始把它们写成工具:

来源必须包含可见的互动指标。
面向读者的 HTML 中的来源链接必须可点击。
评分分为外部信号、来源热度、自有匹配和回放潜力。
最终包、封面图和 ZIP 文件不算已发布证据。
面向公众的操作总是在人类批准前停下。

写完这些规则后,我仍然做决策。

我仍然选角度。
我仍然定标题。
我仍然决定是否发布。

Claude Code/Codex 先跑那些重复的检查。

Image
Image

人类留在人类最该发挥作用的地方。

什么值得做成工具

我会留意几个信号:

同一个任务一周出现三次。
每次你都要打开同一组文件或页面。
每次你都要重新解释同样的标准。
每次你都会漏掉一个小细节,然后不得不重做。
每次都有一个明确的点,需要人类来做决策。

开发者经常遇到这些:

PR 审查检查清单。
部署前检查。
依赖升级检查。
Bug 分类。
测试覆盖率扫描。
每周指标回读。

运营和产品也一样:

支持分类排查。
销售电话准备。
候选人筛选。
客户周报。
竞品追踪。
用户反馈分类。

这些看起来都不像“大型自动化”。

但却是最好的起点。

因为输入相对固定,输出可以清晰描述,而且你已经知道哪些环节需要人工介入。

人工检查点应写在文件里,而不是记在脑子里

大多数 AI 工作流在边界处崩溃,而非能力不足。

AI 可以搜索。
它可以阅读。
它可以起草。
它可以扫描链接。
它可以生成清单。
它可以写入本地文件。
它可以提出修改建议。

以下是它需要停止的地方:

公开操作。
发给客户的消息。
退款或定价。
交付承诺。
覆盖重要文件。
删除版本历史。
对外发布。
对标题和观点的最终决定。

不要把这些边界记在脑子里。

把它们写进 AGENTS.md。
写进 publish-preflight.md。
写进 SOURCE\_OF\_TRUTH.md。
写进相关技能的安全部分

边界越清晰,你就越能放心让工具运行。

Image
Image

以前你每次都得提醒它:

别发布那个。
别覆盖这个文件。
别把那当成事实。
别向客户承诺。
别替我做最终决定。

现在这些规则都存在于项目中。

一个你可以直接复制的提示词

把你上周最烦人的重复任务扔给 Claude Code/Codex:

我想把一个我反复手动操作的工作流变成一个可复用的工具。

工作流名称:
一句话痛点:
过去一周出现了多少次:

输入:
每次需要哪些文件、链接、截图、数据、页面或系统?

好的结果:
最终输出长什么样?
给一个具体例子。

事实来源:
哪些信息最可信?
如果聊天记录、旧文档、网页、CRM 和 Notion 冲突,哪个优先?

重复检查:
每次需要检查哪些小细节?

人工判断点:
哪些地方需要我自己看?
哪些地方需要品味?
哪些地方出错会导致返工或风险?

AI 可以直接做:
- 搜索/阅读:
- 起草:
- 检查:
- 格式化:
- 写入本地文件:

AI 必须先询问:
- 公开操作:
- 外部消息:
- 付款/退款:
- 覆盖重要文件:
- 无来源的声明:

给我三个层级:
1. 今天就能用的清单
2. 今天就能写的小脚本/检查器
3. 值得长期保留的技能/集成

每个层级要指定:
- 输入
- 输出
- 存放在哪个文件
- 人工检查点在哪里
- 如何用最近的真实案例测试

第一轮,只要求它给出计划。

看看它是否真的理解了你的工作。

然后选最小的那个,开始构建。

从小处着手

不要试图在第一天就构建一个完整的系统。

对于我的文章发布前检查,我从一个简单的 HTML 链接检查器开始。

它只做这些事:

扫描原始 URL。
空 href。
本地文件路径。
占位链接。
源锚点是否可点击。
标题是否还包含“草稿”或“临时”。

运行一次就已经节省了时间。

稳定之后,我把它升级成了一个发布前检查技能。

之后,我又加入了来源指标、图片质量检查、声明核查和审批包。

一次只加一层。

一次想建太多,就会变成另一个没人维护的自动化幻想。

工具会过时

这一点很容易被低估。

工作流会变。
工具会变。
模型会变。
你自己的标准也会变。

你今天写的规则,三周后可能就错了。

所以每个工具都需要一个修补循环。

该触发时没触发?修复触发条件。
不该触发时触发了?缩小范围。
用了过时信息?更新事实来源。
同样的错误反复出现?添加失败模式。
你总在手动编辑同一个东西?把那次编辑变成规则。
三个月没碰过?归档它。

工具化的回报来自复利。

复利来自持续更新。

Image
Image

今天就做一件

你不需要今天就去构建一个系统。

回顾过去一周。找一件你手动做了三次的事。

写下输入。
写下“完成”长什么样。
写下事实来源。
写下哪里需要人工决策。
把它扔给 Claude Code 或 Codex。
要求三个层级:清单、检查器、技能。
选最小的那个。
在最近的真实案例上运行它。
如果它做错了什么,把错误写回文件。

下次你做同样的任务时,一件手工活就消失了。

再下一次,它会更准确一点。

一个月后,你拥有的不是一堆聊天记录。

而是一套基于真实工作训练出来的小工具。

更多 Agent 构建笔记,随我构建过程实时更新,关注 @Voxyz\_ai。每天都有新内容,完整笔记见 voxyz.ai/insights

希望对你有用。Vox ❤️

相关案例