内容创作 / 工作流案例

个人 Agent 搭建完整合集:从 Vibe Coding 到每天都在用的个人工作系统

初级到中级 首次搭建后持续迭代 @xudong07452910
结果

个人Agent搭建: Vibe Coding→可日用系统 | 30天从毛坯房到工作系统, 双模型互审+完整拆解

适合谁

想从 vibe coding 走到可日用个人 agent 系统的独立开发者 / 高阶玩家

写在前面:这是一篇个人 Agent 搭建 和 Vibe Coding 方法的合集。

过去一个多月,我在 X 上陆陆续续发了一整个系列,从「为什么自己搭」一路写到「双模型互审」,每一篇都是一个独立话题。后台不少朋友说想要一份能一次读完的版本,于是我把这些文章重新梳理、串成了一篇完整的指南,也算给这个系列做一个阶段性收尾。

如果你之前零零散散看过其中几篇,这里是完整版;如果你是第一次看到,这一篇就够。

过去 30 多天,我把自己的个人 Agent EvoPaw(GitHub: https://github.com/hxdflying/EvoPaw)从一个「能跑起来的毛坯房」一点点迭代成了每天都在用的工作系统。我日常七八成的重复劳动都被它接过去了

这篇合集就是把这 30 多天整个过程拆开、掰碎、毫无保留分享出来。不讲框架、不讲架构图,只讲一个普通人怎么一步一步把自己的 Agent 长出来。

工具可以换,但真正懂你工作流、偏好和方法的系统,只有你自己能慢慢养出来。这是这套合集真正想说的事。

第一章:为什么我劝你自己搭 Agent,这是主权问题

每次我聊 EvoPaw,都会有人问同一句话:OpenClaw、Hermes Agent、Nanobot 已经做得这么好了,为什么还要自己搭?

我的答案就一句:因为用现成框架的那一刻,你就把进化的主动权交了出去。

用现成框架,你永远在追新框架、调 prompt、修兼容。框架升级你就得升级,框架不维护你就得重来。看起来你在用工具,实际是被工具牵着走。

而自己搭这件事,最大的好处其实不是「掌控感」这种空泛的词,它能落到几件非常具体的事情上。

第一件,是模块边界清晰。 想换哪一层就换哪一层——provider、编排、记忆、技能——上层代码基本不动。这种自由度,在现成框架里几乎是不可能的。

第二件,是可以「偷」设计。 读 Hermes 的 Curator 学技能自动演化,读 Nanobot 学依赖预检,读 Pi-mono 学多 provider 抽象。一旦你在自己的系统里跑过一遍,看别人的项目就不再是看「一个整体框架」,而是一堆可以拆下来、拼回去的零件。

第三件,是数据和理解的主权。 Agent 用久了,会慢慢长出对你的「理解」:你喜欢什么格式、你怎么拆任务、你最近在焦虑什么。这些不是文件,是长期互动里涌现出来的「二阶资产」。平台 Agent 很难完整迁移,你花一年喂养出来的默契,换平台可能一夜归零。

第四件,是门槛真的已经低到离谱。*2026 年,有了 Claude Code、Codex 这类 Vibe Coding 工具,你不需要是程序员。改一行 prompt、让 AI 帮你写一个 Skill、加一个记忆文件——一步步就能把这个系统变成只属于你自己的样子。

所以我的建议非常具体:先用现成工具跑两周,感受一下「有 AI 助手在线」是什么体验;然后带着挑剔去用它,把所有别扭的地方都记下来,从这些痛点开始动手。起点不是终点。

第二章:15 天从 0 到日常使用,我跑通的那套流程

如果你下定决心要自己搭,下面这套流程是我自己跑下来觉得最顺的一条路。

基座我推荐 Nanobot。 代码干净、轻量、飞书等通道内置好、多 provider 支持。在我试过的所有项目里,它是最省事的一个。

整套流程其实就五步。

第一步,挑一个轻量基座。判断标准很硬:代码行数最好低于 8000 行,agent loop 一眼就能看明白,能比较容易地接飞书或 Telegram。重不重要看你能不能改得动,能改得动才能长得久。

第二步,用 Claude Code 装好,把飞书顺手跑通。 飞书强烈走长连接模式,不用公网 IP、不用配 webhook,是体验最舒服的一条路。

第三步,建好脚手架文件。 CLAUDE.md 是你这个项目的说明书,docs/ 下面再放 spec.mdprompt_plan.mdtodo.md。这些文件是跨会话的持久化记忆,比任何 prompt 技巧都强。

第四步,把模糊需求逼成清晰 spec。 这是整套流程里最关键的一步,单独在第三章展开讲。

第五步,每加一个功能必须配测试。 同样关键,在第四章展开。

跑完这五步,你会从「用别人的 Agent」变成「拥有自己的系统」,这两件事的差别比想象中要大得多。

进阶玩法有两个值得提一句。一个是从 Hermes、OpenClaw 这些项目里「偷」好设计——可以是思想级别的重写,模块级别的抄,甚至文件级别的复用。另一个是装上 Codex MCP,让两个模型互审,效果显著,在第七章我会专门讲。

第三章:Vibe Coding 的命门,是把模糊需求逼成清晰 spec

Vibe Coding 速度优势的前提,是 spec 必须清楚。spec 越糊,AI 跑得越快,你死得越惨。这是我交了无数学费之后才反应过来的事。

我现在自己跑一个新需求,基本是下面这五步,以「飞书群待办总结」为例。

第一步,先填一张表,逼自己说人话。 把痛点写出来、把期望写出来、把自己不知道的地方也老老实实写出来。这一步看起来废,但能拦住 80% 的「想到哪写到哪」。

第二步,开 Plan mode(Shift+Tab),让 Claude Code 反复追问你。 边界条件、错误处理、性能要求、跟现有功能有没有冲突——全问清楚。这一步是把脑子里模糊的东西具象化的过程,越被问越能想清楚。

第三步,输出 docs/spec.md。 用列表、用表格,写得像合同,不要散文。一份能让别人看着实现出来的 spec,才是合格的 spec。

第四步(可选但强烈推荐),让 Codex review 这份 spec。 它能挑出你和 Claude 都意识不到的盲区。

第五步,把 spec 拆成 prompt_plan.mdtodo.md。 每一步控制在 2 到 5 分钟、可以独立验收。这样后面动手的时候节奏才稳。

懒人神器我也直接推荐了:obra/superpowers(https://github.com/obra/superpowers)。装上之后,你说「加个功能」它会自动触发 brainstorming skill,硬约束你先把 spec 出清楚再动手。新手装上能少踩 70% 的坑。

第四章:测试,是你敢换模型、敢做大重构的胆量

Vibe Coding 时代,测试不再是「防 bug」,而是真相通道。没有测试,你根本不知道 AI 改的这一版到底有没有破坏旧功能。

但要注意一件很反直觉的事:让 AI 给自己写测试,天然会作弊。测试和实现互为镜像,永远绿,看着安心,其实毫无防御能力。

正确的姿势是 TDD 简化版,五步走。

先让 AI 根据 spec 写测试,这时候测试是红的。然后你自己 review 这些测试——只测行为,不测实现细节,这一关一定要把好。接着让 AI 写实现,让测试变绿。再加 boundary case 和 adversarial case,故意给函数喂坏数据。最后让 Codex review 一遍这些测试。

superpowers 里有一个 test-driven-development skill 会强制你跑红 → 绿 → 重构的循环,还带一条「Iron Law」:写了实现但没先写测试,就删掉重写。 听起来狠,但坚持两周之后,你会发现真正的杠杆不是测试本身,而是「敢重构」的勇气。

第五章:Claude Code 和 Codex 的关键配置,改完立竿见影

下面这两套配置我自己跑了几个月,效果非常明显。花 5 到 10 分钟改完,工具会变得更聪明、更便宜、更可靠、也更安静。

Claude Code 8 个关键配置

粘贴进 ~/.zshrc~/.claude/settings.json

1. 强制高思考强度(ANTHROPIC_THINKING_BUDGET

2. 关掉自适应思考,防幻觉

3. 子代理切到便宜的 Haiku 模型,账单能砍到 1/5

4. 主模型默认 Sonnet,遇到硬骨头再切 Opus

5. 拉长单次输出上限

6. 开虚拟视口和 diff 渲染,不闪屏

7. 关所有遥测

8. 把 bash 超时放宽到 30 分钟以上

Codex 10 个 TOML 配置

放在 ~/.codex/config.toml

默认强模型、reasoning effort 拉到 high;审批策略走 on-request,该问的时候问;沙盒走 workspace-write,默认断网;搜索走 cached;关掉 alternate screen、关掉 reasoning event 的实时显示、关掉长期历史落盘、关掉 analytics。

每一项单独看都不起眼,但叠在一起,使用体验是质变。

第六章:新手必装的 Superpowers 纪律系统

新手做 vibe coding 最大的敌人,不是 AI 不够聪明,而是缺少强制纪律。AI 速度够快,但人控制不住自己想「跳一步」。

装上 obra/superpowers,重点用下面五个 skill 就够了,全部自动触发:

  • brainstorming —— 硬约束你出 spec 再动手
  • writing-plans —— 把 spec 拆成 bite-sized task
  • test-driven-development —— 强制红绿循环 + Iron Law
  • systematic-debugging —— 没复现就不许 fix
  • verification-before-completion —— 没真跑过验证命令就不许 claim 完成

第一周严格跟着跑,先把肌肉记忆养出来,再考虑魔改。剩下那 9 个 skill(worktree、parallel agents 之类)一个月以后再碰,不然容易心力分散。

第七章:双模型互审,破解自我盲区

Claude 和 Codex 的训练分布不一样,盲区不重合。让它们互相 review,是我目前找到的性价比最高的 QA 方式。

配置方法很简单:用 MCP 把 Codex 注册成 Claude Code 的工具(反过来也行),整个流程在一个会话里跑就行。

最值钱的四个互审场景是:

spec 互审,专门挑边界、歧义、隐含假设;测试互审,只看测试本身,揪出那些「装样子的测试」;debug 二审,让另一方在不看 fix 的前提下独立诊断根因;重要 diff 互审,专门盯破坏接口、吞错、和 spec 不一致这三类问题。

里面有两条铁律必须守住:

  • 测试一定要让没写实现的那一方来写。
  • Debug 一定要让对方在不看 fix 的前提下独立诊断。

只要这两条守住,互审就不会退化成两个模型互相点头。

结语:行动起来,做属于你自己的系统

整个系列说了这么多,其实就一句话:

用现成框架,你永远是用户。自己搭,你才有可能成为主人。

从今天开始,你可以做这四件具体的事:

1. Fork Nanobot 或类似的轻量项目

2. 装好 Claude Code或者Codex,改完那套配置

3. 装上 Superpowers

4. 挑一个你真实的痛点,按 spec 流程跑一遍

不需要一次做到完美。一天改一行 prompt、一周加一个 Skill、一个月重构一次底层,它就会一点一点地,变成只懂你的那个系统。

EvoPaw 就是这么长出来的。我希望这个合集能给你一点点启发,和动手的勇气。

相关案例