效率自动化 / 工作流案例

我的个人生活自动化 Agent 栈

初级到中级 首次搭建后持续迭代 @nicbstme
结果

省时: Codex自动处理WhatsApp/Telegram/iMessage/Gmail/日历/文档 | 个人生活AI管家,工具+数据连接器+Skills全打通

适合谁

想把通讯、日历、文档等个人琐事交给 agent 代办的重度知识工作者

我的 Agent 管理我的邮件、短信、WhatsApp、Telegram 以及几乎所有事情,帮助我把个人生活自动化。

总有人问我,在现实中到底怎么用 Agent。我想说的是那些真正让一天消失的无聊事:阅读 WhatsApp 和 Telegram、找某个人的邮件、搜索网页、起草介绍信、更新 Google Drive 里的文档、创建日历事件、检查还有谁没回复,而且所有这些都发生在我已经在用的那些杂乱工具里。

我的答案简单得让人失望。我直接用 Codex 作为操作层,运行在我真实的生活数据之上。它有工具、有数据连接器、有技能、有一个事实来源(source of truth)、有足够的权限在本地执行操作,也有足够多的审批关卡,以免它在公开场合让我难堪。

基本上就是这套配置:工具、数据连接器、技能和品味。

我以前更多用 Claude Code 做这些事,但最近逐渐把配置迁移到了 Codex,因为 GPT-5.5 目前更适合这类工作。从 Claude Code 换到 Codex 并不是重点。重点是:一旦模型足够好,真正的杠杆来自于把它接入你已经生活其中的世界。

关键之处在于,Agent 能跨越边界。我的个人生活并不只存在于一个 App 里,而是分散在 Gmail、WhatsApp、Telegram、iMessage、Google Drive、日历、Notion、本地文件、各种 PDF、浏览器会话,以及一个比看起来重要得多的联系人电子表格中。

一个真实的沟通示例

几天前,一位朋友通过 WhatsApp 给我发消息。她正在帮一家快速成长的旧金山 AI 初创公司在法国招聘,想把我认识的一位招聘负责人介绍给他们的招聘经理。我不记得那位招聘负责人的邮箱,也不知道这家初创公司最近的融资情况。我需要搜索 WhatsApp、搜索 Gmail、找到招聘负责人的邮箱、搜索网页、了解为什么这家初创公司值得信赖、起草一封介绍邮件、附上两个职位链接、把草稿给我过目、在批准后发送邮件,然后告诉朋友事情办妥了。

正常情况下,这是二十分钟烦人的 App 切换:WhatsApp 到 Gmail 到 Google 搜索再到 Gmail 再回到 WhatsApp。不是难事,但恰恰是那种消耗注意力的工作,因为每一步都是一次小小的上下文切换。

有了 Agent,我直接要结果。它读取了 WhatsApp 会话,在 Gmail 中搜索了那位招聘负责人的邮箱,在网上研究了这家初创公司的融资和最新消息,起草了介绍信,等待我批准,发送了邮件,然后告诉朋友介绍信已经发出。我参与的部分大约十秒钟。Agent 完成了所有胶水工作(只需几秒钟!)

这就是杀手模式。Agent 不是“回答一个问题”,而是跨工具操作,完成一个真实的微型工作流(即“待完成的工作”)。

车牌示例

另一个例子更加无聊,但因此我喜欢它。我更换了汽车的车牌。我把照片和相关信息发给 Codex,它更新了我在 Google Drive 里维护的车辆信息 Markdown 文件:改了车牌号,添加了登记备注,保留了原有的 VIN、保险、车主和地址,然后把文件重新上传到 Drive。

仅此一项就已很有用,但更好的版本是后续操作。Agent 可以通过浏览器自动化在别处更新相同的信息:FasTrak、停车 App、保险门户、DMV 相关表单,或者任何其他没有干净 API 的网页应用。对于有整洁系统的,它应该使用 API 或 CLI。对于混乱的系统,它可以使用浏览器,而且效果很好!我现在也使用 Codex 的 Computer Use 功能。

这就是个人 Agent 的用途。不是戏剧化的自主性,而是管理上的连续性。我一直害怕 Openclaw 在后台的 yolo 模式。我喜欢掌控感。

Google Drive 是我的事实来源

我做出的最重要架构决策,是把有价值的个人信息集中到 Google Drive。多年以来,我的很多知识都存放在 Notion 里。我喜欢 Notion 作为人类工作空间,但不喜欢它作为 Agent 的主要事实来源。API 能用,但工作空间太过流动:嵌套页面、数据库、属性、权限、格式、反向链接,以及大量界面原生结构——对人类友好,对模型烦人。

所以我用 Notion API 导出了有价值的信息,迁移到 Google Drive。我没有试图完美保留 Notion 工作空间,而是让信息变得对 Agent 可读。Drive 里的大部分有用信息是 Markdown 或 CSV,因为这些格式便于 Agent 搜索、比较、编辑和上传回来,无需额外仪式。Google Drive 成为了事实来源,因为 gogcli 为 Agent 提供了一个简单的命令行界面来操作 Gmail、Drive、日历、文档、表格、联系人和任务。

这是一个被低估的点。你不应该只为人类界面组织知识,还应该为 Agent 的工具路径组织知识。Agent 喜欢稳定的文件 ID、文本、表格、Markdown、CSV 以及返回 JSON 的命令。如果 Agent 能搜索、下载、编辑、上传并引用来源,那么数据就是有用的。

我的个人数据层简单得令人尴尬。Google Drive 存放重要文档,大部分是 Markdown 文件和 CSV。联系人放在一个 Google Sheet 里,并镜像为 CSV。Notion 导出文件落入 Drive。本地指令放在 AGENTS.md 中。技能以 Markdown 文件形式存放在文件夹里。事实来源并不优雅,而是可读。

许多个人生产力工作其实就是把这些数据关联起来。一个事实在 WhatsApp 里,另一个在 Gmail 里,邮箱地址在联系人里,日期在日历里,文档在 Drive 里。当 Agent 能够跨越这些边界,而不用我充当胶水时,它就开始变得有用了。

我的个人生活自动化 Agent 技术栈

我最值得的投资之一,就是创建了一个 contact.csv 文件,里面存了所有我认识的人的电话、邮箱、LinkedIn 等信息。

工具

核心工具刻意保持朴素。我用 gogcli 操作 Google Workspace,wacli 操作 WhatsApp,imsg 操作 iMessage 和短信,用 Browser Use 或浏览器自动化处理网页应用,遇到没有更好接口的情况就用 AppleScript 或 macOS UI 自动化。

层级关系很简单。API 和 CLI 是首选。本地文件也很好。浏览器自动化可以接受。屏幕自动化是最后的手段。

这个层级之所以重要,是因为 Agent 的可靠性完全取决于它的工具表面。让模型在网页上点来点去有时是必要的,但这绝不是最佳路径。像 gog gmail messages listwacli messages list --json 这样的命令,模型更容易检查、重试和推理。

实际中的工具层是这样的:

这些看起来一点都不科幻。这正是重点。个人 Agent 的未来,始于一堆让模型能操作你现有工具的命令。你要尽可能减少模型和 API 之间的抽象层。

技能

工具给了 Agent 双手,技能给了它习惯。技能就是一本小型操作手册,告诉 Agent 如何按照我喜欢的方式完成重复性任务。

我的收件箱清零技能就是个好例子。它告诉 Agent:通过 gog 列出 Gmail 收件箱邮件,区分自动归档和需要审阅的邮件,给我看重要的邮件,引用关键内容,建议归档或回复,起草回复,等待明确批准,在原线程中发送,保留所有收件人,发送后才归档,回复保持简短,除非我要求否则绝不建议打电话,签名用 "Nicolas"。

这不是什么花哨的架构。这就是一个流程。但流程本身就是产品……而且它只是文本指令。

没有这个技能,我每次都得亲自写 Prompt。我得提醒 Agent 未经批准不要发送,不要漏掉抄送人,不要建议打电话,不要用什么奇怪的企业签名。有了技能,我只需要说"运行收件箱清零",工作流就已经包含了我的偏好。

重要的习惯是,每次 Agent 犯错,我都会改进技能。如果它在我讨厌打电话时建议打电话,我就加上这条规则。如果它忘了保留抄送人,我就加上这条规则。如果它归档太激进,我就收紧分类标准。Agent 变好了,是因为流程变好了。

这就是个人 Agent 变得个性化的方式。不是靠可爱的语音,而是靠积累操作偏好。

这种设置会不断自我强化,因为错误会变成指令。

审批关卡就是产品

我不想要一个盲目回复所有人的 Agent。我想要一个能准备好工作、给我看草稿、在合适的时机询问我的 Agent。对于大多数沟通工作流,循环是这样的:阅读上下文、起草回复、给我看、等待批准、发送、确认。

有时候风险低,我会让它直接发送。"告诉 Hugo 我下周在西雅图"这种事不需要开董事会。但投资人邮件、客户回复、引荐信,或者任何涉及社交分寸的内容,都应该先起草。

这就是有用和可怕之间的区别。只读扫描是一个信任层级。起草是另一个。发送又是另一个。删除、付款、签名或修改账户设置,完全是另一个层级。未来不是"Agent 做所有事"。未来是"Agent 做繁琐的工作,在合适的时机询问我"。

杀手级工作流:我错过了什么?

杀手级工作流不是邮件。是生活收件箱的优先级梳理。每隔几小时,我想问"我错过了什么?",然后让 Agent 扫描 WhatsApp、Telegram、Gmail、短信、日历和相关的 Drive 变更。然后让它告诉我谁需要回复、什么紧急、什么已过时、什么可以忽略、什么应该变成日历事件、什么需要文档搜索。

这是完美的 Agent 任务,因为它上下文密集、重复性强、跨工具、充满小决策。人类讨厌做第一遍筛选。Agent 擅长做第一遍筛选。判断力仍然属于我。

结果不是我的生活变得全自动。结果是我不用再手动翻五个 App 去找那三件真正重要的事了。

我当前的设置清单

如果有人想复刻我的设置,这是清单:安装 Codex。安装 gogcli 用于 Google Workspace。安装 wacli 用于 WhatsApp。如果你用 Telegram,安装 Telegram 连接器。安装 imsg 用于 iMessage 和短信。添加浏览器自动化,最好通过 Browser Use 或 Chrome 控制器。通过 AppleScript 和 UI 脚本添加 macOS 自动化。如果你的知识存在 Notion,用 Notion API 把有价值的部分导出到 Google Drive。

然后集中数据。让 Google Drive 成为事实来源。把联系人存在 Google Sheet 或 CSV 里。把重要的个人文档存为可搜索的文件。保留本地的 AGENTS.md 指令。为重复性工作流保留小技能。

然后谨慎授予权限。本地文件和 App 数据库需要"完全磁盘访问权限"。屏幕录制作为视觉备用方案很有用。辅助功能用于在 App 中点击和输入。这些都是严肃的权限,所以要配上严肃的审批关卡。

然后写下操作规则。

基本上就是这样。工具、数据连接器、技能、审批关卡,以及持续改进。

这就是新的操作系统

个人电脑曾经是 App 驱动的。你打开 App,搜索,点击,复制,粘贴,写东西,发送。Agent 驱动的电脑感觉完全不同。你陈述意图,Agent 收集上下文,提出行动方案,需要时等待批准,执行,然后汇报。

一旦体验过这种模式,再回头看旧方法简直荒谬。为什么我要手动翻遍 WhatsApp、Gmail、Google Drive 和网页,就为了发一条介绍?为什么我要把车牌号复制到五个不同的门户里?为什么我要读一百条消息,只为了找出那三条重要的?

这些事,电脑本该替我做。

目前的设置还很粗糙。CLI 界面不够友好,权限设置烦人,有些连接器会出问题,浏览器自动化也不稳定。你得自己写技能,还得维护一个事实来源。但未来通常就是这样开始的。

第一批真正有用的个人 Agent 不会像打磨好的消费级应用。它们更像是一个终端里的模型,能访问你的文件、账号、记忆和工具。

这就是我如今在用的东西,而且每周我都会把生活中更多的一部分交给它来打理。

相关案例