开发工程 / 工作流案例

用对工具

初级到中级 首次搭建后持续迭代 @AISmallBizGuru
结果

按任务分层路由模型与本地工具,压住 token 成本 | 多模型分工的 agent delivery workflow

适合谁

在跑多模型 coding / agent workflow、想控制 token 成本和质量的人

我经常看到一些公司烧掉大把资金在AI上,而且我完全理解这是怎么发生的。一旦“AI战略”成为预算条目,人们就开始把每项任务都当成需要最大的模型、最宽的上下文窗口、最花哨的Agent框架,以及让CFO焦虑到咬打印纸的烧钱速度。

我的方法要无聊得多:用对工具做对事。

目前我的个人AI栈大概是两个每月20美元左右的订阅,加上一些按量付费的使用。ChatGPT是我的主力架构、规划、推理、写作和产品思维伙伴。Gemini也在其中,因为它提供了另一个强大的模型家族,而且订阅还附带一些有用的Google生态福利,比如云存储。然后我用OpenRouter和OpenCode Zen来按量付费访问模型,当我想有更广的模型选择、更强的编码能力,或者一个足够便宜且能胜任特定任务的模型时。

总的来说,我每个月大概花60美元左右:ChatGPT、Gemini,再加上OpenRouter/OpenCode Zen可能20美元的使用费。这比一个高端“专业”AI订阅要少,或者差不多。如果你能严格区分每个模型该做什么,这点钱也能搭建出不少东西。

模式很简单。在思考质量最重要的地方,我用最强的通用模型:架构、权衡取舍、设计方向、PRD、MVP规格、任务分解,以及后续要交给编码Agent或更便宜模型的提示词。这些地方我需要好的判断力。糟糕的架构代价高昂。糟糕的规划代价高昂。一份草率的规格说明可能浪费Agent数小时的时间。所以我不在思考层上省钱。

但一旦计划清晰,很多执行工作并不需要最贵的模型。如果任务是“添加这个标签页”、“连接这个端点”、“重构这个组件”、“写这个测试”或“实现这个范围明确的提示词”,那么较弱的模型通常也能做得很好。一些中国模型在代码方面确实不错。我目前最喜欢的是Kimi 2.6。它不一定是我做架构决策时想要的模型,但对于范围明确的编码工作,它非常强大。

我通过ChatGPT订阅也包含了Codex的使用,所以我会在限额内用好模型。但我尽量不把配额像醉醺醺的水手拿着令牌大炮一样乱花。我会留一些给最重要的地方:调试糟糕的输出、审查混乱的diff、解释为什么一个较弱的模型跑偏了,或者让卡住的实现重新动起来。

本地栈也很重要。对我来说,那就是Cmux和LazyVim。Cmux让我能实用地运行和管理多个Agent/代码会话,而不用把桌面变成标签页墓地。LazyVim给了我真正想待的编辑器环境:快速、键盘驱动、可扩展、贴近文件、适合真正的开发,而不是“提示词加祈祷”式的编码。AI工具很强大,但我仍然想要一个本地驾驶舱,在那里我可以检查diff、浏览代码库、运行测试、手动编辑,让整个过程脚踏实地。

这是我工作流的重要部分。我不是想把所有判断都外包给模型。更好的模式是:人类指导、强模型规划、便宜模型执行、本地检查,然后在需要时再一轮审查。Cmux和LazyVim是这个循环的一部分,因为它们让工作贴近仓库,而不是把开发变成一堆互不相干的聊天记录。

这就是很多AI支出失控的地方。公司不仅因为模型贵而超支。他们超支是因为没有路由纪律。每项任务都交给高级模型。每个工作流都配一个Agent。每个内部原型都搞企业级仪式。每个“如果这样会怎样”的实验都建得像要扛住黑色星期五的流量。

正确的问题不是“哪个模型最好?”正确的问题是“这一步到底需要什么?”架构需要判断力。PRD需要清晰度。规格需要精确性。代码生成需要胜任力。调试需要推理能力。批量编辑需要廉价吞吐量。摘要需要“足够好”。探索需要可选性。这些不是同一份工作,它们也不该用同一个模型。

这就是为什么我喜欢混合栈。ChatGPT负责大局思考和高级规划。Gemini提供另一个严肃的模型家族和有用的生态价值。OpenRouter让我跨提供商选择模型并按量付费实验。OpenCode Zen为编码工作流提供另一个执行通道。Codex给我一个强大的集成编码助手,但有限额,我想有意识地使用。Cmux和LazyVim让实际开发循环保持本地、可检查、受我控制。

Grok技术上也在堆里,因为我作为X认证用户有它,但我还没用它做太多编码。也许以后会变。也许不会。这也是重点的一部分:工具靠在一个特定领域有用而赢得位置,而不是因为它们光鲜亮丽。

这也是为什么我喜欢写好的规划提示词。一个强模型能把模糊的想法变成清晰的实现简报。然后这个简报可以交给更便宜或更擅长代码的模型。贵模型不必敲每一颗钉子。有时它最高价值的任务是确保钉子、木板和锤子都正确识别,然后便宜的工匠才上场。

这不是反高级模型。我喜欢好模型。我经常用它们。但我不认为“所有事情都用最好的模型”是一种策略。那是一个穿着连帽衫的采购问题。

更好的做法是采用分层智能策略。用最好的模型把握方向,用性价比高的模型处理边界明确的执行任务。在合适的场景使用专用工具,需要灵活性时按需付费,有意识地利用订阅配额,同时保留备用算力用于调试。而最关键的一点是:不要为一个棚屋搭建企业级管道。

对独立开发者来说,这样能控制月度支出在合理范围内。对公司而言,同样的思路在概念上也能规模化——即使数字更大。浪费通常源于把AI当作魔法而非工作流。一旦理解了工作流,就能智能地路由任务。

这才是真正的教训:AI 的支出应该与任务价值挂钩,而不是模型的名气。

合适的工具不一定总是最大的模型。有时是最好的模型,有时是最便宜的、不会让你难堪的模型。有时是一个编码 Agent,有时是一场规划对话。有时是 Cmux 和 LazyVim,加上人类审阅 diff,仿佛文明依然重要。而有时最聪明的做法是先把好的 tokens 花在前面,这样便宜的 tokens 后面才不会掉进沟里。

相关案例