人们以为这是什么。实际是什么。
当大多数人听到“Claude 自动化”时,他们想到的是某个找到了巧妙提示技巧的人。或者是一个在副业项目里跑 API 调用的开发者。
但这都不是重点。
这是关于将 Claude 视为你运行的基础设施,而不是你使用的工具。人只负责处理例外情况。系统处理其余部分。这种转变不需要技术上的精通。它需要一个关于工作归属的不同决定。
以下是什么不是:这不是关于取代判断、自动化高风险的决策,或者建立一个流程然后置之不理。这是关于构建足够具体的脚手架,让 Claude 能够持续稳定地运行,无需时刻照看。
实际的问题
手动提示不可扩展。
复制粘贴到聊天窗口只是打字更快,不是自动化。你一登出,工作流就停止了。有人打开 Claude,写一条提示,编辑输出,明天再重复。那是一个多了一些步骤的习惯,不是一个系统。
一名工程师每天花 45 分钟总结 Slack 线程、编写工单描述和起草 PR 备注。全是手动的。全是可重复的。搭建感觉像一个项目,所以他们一直手动做。花了三小时构建替代方案。此后每天都运行。
数学很简单。一个重复性任务,自动化,每周运行五天,每天节省 20 分钟。一年超过 80 小时。来自一个脚本。大多数团队有六七个类似的任务未被触及。
真正搭建看起来像什么
系统提示作为配置文件,而非请求
系统提示不是礼貌的请求。它是一个配置文件。大多数人写两行含糊的句子,然后疑惑为什么输出不断偏移。
获得一致结果的团队会指定一切:角色、输出格式、语气、边缘情况处理。
错误:"有用且简洁。"
正确:"你是一名嵌入工程团队的技术文档写手。当收到 GitHub PR diff 时,返回恰好两个段落。第一段:发生了什么变化,面向非技术审阅者。第二段:为什么重要,面向工程主管。不要列表。不要标题。不要开场白。如果 diff 为空或格式错误,仅返回:INPUT\_ERROR。"
你留下的每一个自由度都是流程中潜在的故障模式。
对于任何重复性任务,API 优先于聊天
如果你每周运行同一条提示超过一次,它就应该归属于一个脚本。Claude API 暴露相同的模型且没有 UI 开销。配上触发器,手动步骤就消失了。常见触发器:GitHub webhook 在 PR 打开时触发,cron 任务用于每日摘要,Zapier 或 Make 用于无代码团队,n8n 用于自托管控制。
链式优于单次提示
复杂任务在一个提示下容易崩溃。将它们链式连接。一次调用来提取,一次来分析,一次来格式化。每一步都可调试。每个输出都可验证。当某处出问题时,你确切知道哪里。
一个内容团队运行一个三步链:从研究 PDF 中提取关键声明,对照已知事实列表检查每个声明,生成带有置信度标记的简报文档。编辑时间减少了一半。
提示迭代作为一门纪律
大多数人写一次提示,效果还行,就做别的事了。获得最佳结果的团队把提示当作产品来对待。他们有更新日志。他们运行回归测试。当模型更新时,他们检查输出行为,以防它在下游破坏某些东西。
这听起来过度,直到一个流程悄无声息地失败了两周,因为一个本来返回干净 JSON 的提示在模型更新后开始添加开场白句子。
纪律性迭代在实践中看起来什么样:
给提示版本化。将它们存储在文件中,附上注释:日期、改了什么、为什么。
在更改任何内容之前编写测试集。十到十五个已知良好输出的输入。如果超过一个失败,该更改不上线。
以下是同一个提示的三个版本:
版本 1(过于宽松):"总结这个工单并建议一个回复分类。"
版本 2(更好,仍有漏洞):"你是一名支持分析员。阅读工单并返回:一句话总结和一个来自以下列表的分类:billing, bug, feature request, account access。以 JSON 格式返回。"
版本 3(生产就绪):"你是一名 B2B SaaS 公司的支持分析员。返回一个 JSON 对象,恰好两个键:summary(一句话,最多20词)和 category(billing、bug、feature\_request、account\_access、other之一)。如果工单为空或不明确,返回:{"summary": "unclear", "category": "other"}。仅返回 JSON。不要解释。不要开场白。"
从版本 1 到版本 3 的飞跃不是聪明。是累积的失败。版本 1 返回不一致的分类。版本 2 偶尔添加文本破坏 JSON 解析器。版本 3 每次都可预测。
把每个提示的失败视为规范缺口。写更严格的规范。测试。上线。
MCP 与工具生态
Claude 的 Model Context Protocol 改变了自动化的面貌。
在 MCP 之前,将 Claude 连接到外部数据意味着为每次集成编写自定义工具定义。大多数人跳过了。MCP 标准化了 Claude 与外部工具的通信方式。如果某个服务暴露了 MCP 服务器,Claude 可以原生调用它:查找日历事件、拉取 CRM 联系人、搜索知识库,并在单次调用中起草反映所有这些信息的响应。
这在实践中改变了什么:
日历感知的工作流。 Claude 连接到你的日历,并在每次通话前起草会议准备。不是模板。一个实际简报,由参会者名单、最近的线程和相关文档构建,在会议前十分钟组装完成。
CRM 集成的外联。 销售代表要求一份跟进草稿。Claude 在写一个字之前拉取联系人历史、最近三次互动、交易阶段以及最近的公司活动。代表本需要手动花十分钟收集的背景信息。
文档与知识库搜索。 支持团队将 Claude 接入内部文档。收到查询后,Claude 先搜索知识库,再基于实际政策草拟回复。当模型从真实来源而非凭记忆生成时,幻觉风险显著降低。
MCP 带来的实际转变在于:过去自动化需要预先知道 Claude 需要哪些数据,然后塞进提示词里。现在 Claude 可以自己去获取所需信息。这使设计问题从"我要包含什么"转变为"这个 Agent 应该有权访问哪些工具"。这是一个更强大的问题,但犯错空间也更大——这正是为什么随着工具使用范围扩大,提示词纪律反而更重要,而非更不重要。
该跳过什么
流程中的模糊提示词。歧义会产生偏差,偏差会破坏下游逻辑。不要给格式留任何即兴发挥的余地。
跳过评估。模型会更新,输出会漂移。模型变更前后各跑十个测试用例,就能在大多数回归问题影响生产前将其捕获。
自动化错误的事情。如果错误输出的代价很高,如果任务需要无法明确规范的判断力,如果错误在造成实际损害前都不可见——那就让人参与其中。先自动化低风险、高重复的任务,再逐步扩展。
**
**
那些从 Claude 获得实际产出的团队,并不是在提示词上更用力。
他们搭建了脚手架。系统提示词被当作配置来对待。提示词像代码一样进行版本管理和测试。任何重复性工作都通过 API 触发。通过 MCP 工具访问实时数据。通过链式调用处理复杂任务。
更好的提示词只能帮到一定程度。超过那个点,更好的基础设施才是规模化之道。
大多数人会继续打开聊天窗口,然后疑惑为什么结果总是不一致。真正起作用的,是底层设置。从来都是如此。