商业增长 / 工作流案例

自主 AI 摘要:靠速度而非炒作构建的商业

初级到中级 首次搭建后持续迭代 @vorty
结果

用“双层模型筛选 + 链接校验 + 双语摘要”把开源 AI 信号做成高频情报产品,卖的是速度和聚合能力。

适合谁

newsletter 作者、AI 情报产品团队、内容型创业者

自主 AI 摘要:一门建立在速度而非炒作之上的生意

没人解决的那个问题,因为它太繁琐了

每天,开源 AI 领域都会发布数十个版本、分支和新仓库。根据 GitHub 的 Octoverse 2025 报告,该平台现在托管着超过 430 万个 AI 仓库,其中以 LLM 为重点的项目同比增长 178%。2026 年 5 月,OpenClaw 成为 GitHub 历史上增长最快的项目,在短短几周内就突破了 30 万星标。

没有哪个开发者、创始人或交易员能手动追踪这一切。GitHub 的 trending 信息流刷新速度比你喝完一杯咖啡还快。付费新闻通讯每月收费 20-50 美元,提供一份手动汇总,但不仅发布滞后,而且很少过滤噪音——只是一份"哪些项目获得了星标"的列表,完全没有回答"我为什么要在意"这个问题。

这才是真正的市场低效。不是凭空想象的(比如域名倒卖,那里已经有专业机器人带着你单打独斗无法匹敌的基础设施),而是真实的:信息分散在数百个来源中,没有人带着策展意识去整合它们,因为这既繁琐又永无止境。AI 恰好去掉了繁琐的部分——过滤和摘要——把人类擅长的事情留给他们:专家策展和包装。

核心论点:你通过速度和聚合来变现,而不是内容。内容免费且丰富。策展才是稀缺的。

完整概念

一个自主 Agent 监控那些信号比大众更早出现的来源,通过两层 AI 方案过滤噪音,验证每个链接是否有效,并以比任何人都快的速度发布双语摘要。

这不是资产倒卖或"先买域名"。这是信号聚合,因为人们懒得手动去做,再加上通过现有受众进行分发。

为什么现在行得通:

  • 发布量已经跨过了手动追踪不可能的门槛
  • LLM 变得足够便宜,每天过滤数千个候选项目只需几美分
  • 廉价 + 昂贵模型协同工作,以接近廉价的价格提供昂贵模型的质量
  • 厌倦了信息生意的受众,会倾向于免费、可应用的信号

架构(4 层)

支撑整个系统的原则:每一层在其输入上更便宜、更粗糙,在其输出上更精确、更昂贵。原始材料几乎免费地大量收集,但只有在通过过滤后才会进行昂贵的分析。

第 1 层 - 来源

黄金法则: 永远不要在没有验证实时状态的情况下相信星标数量。一个仓库可能已被归档、是一个空分支,或者是星标通胀的受害者。始终访问 GitHub API 并检查 pushed_atarchived、真实计数器和最新发布日期。

数据库模式

从正确的结构开始——它能让你免于重复数据的噩梦,并让你能够计算星标增量(你的关键信号)。

收集候选项目

处理速率限制(每个人都在这里栽跟头)

GitHub 会在请求头中告诉你还剩多少请求。不要忽略它们——否则你会在运行中途遇到 403 错误。

💡提示: 未经身份验证的 GitHub API 上限为 60 次请求/小时;使用个人令牌则为 5000 次。我在为本文收集数据时就栽在了这上面——未经身份验证的调用在第 5 个仓库时就撞墙了,我不得不等待重置。令牌不是可选项,而是硬性要求。

来源(全部有免费 API)

  • GitHub Search API - 版本发布、trending、按主题分类的新仓库。核心来源。
  • arXiv API - 最新预印本(cs.AI, cs.LG, cs.CL)。XML 格式,用 feedparser 解析。
  • Hacker News (Algolia API) - 社区此刻正在讨论什么,无需密钥。
  • Reddit API - r/LocalLLaMA, r/MachineLearning(需要一个免费的 OAuth 应用)。
  • Telegram/Discord - 通过用户机器人或爬虫。注意服务条款,将其作为可选层。

第 2 层 - 过滤(核心,所有优势都在这里)

两层方案将成本降低了一个数量级。廉价模型杀死了 95% 的噪音,昂贵模型只处理幸存者。在每天 2000 个候选项目、使用合理提示词的情况下,这相当于"几美分"和"几美元"的日常成本差异。

  • 第 2a 层 - 快速分类 (Haiku)
  • 第 2b 层 - 幸存者深度分析 (Opus)

成本计算(为什么双循环值得)

粗略的每日估算:

  • 2000 个候选项目通过 Haiku 处理(短提示词)→ 几美分
  • ~100 个幸存者通过 Opus 进行完整分析 → 几美元,但不超过两位数

结果: 以接近廉价模型的价格获得昂贵模型的质量。

如果你把所有 2000 个项目都推给 Opus,同样的输出账单会高出几十倍——因为 95% 无论如何都会被过滤掉。

💡提示(来自量化逻辑): 按预期价值过滤,而不是绝对星标数。一个本周从 200 星标爆发的仓库,胜过一个人气已过的 5 万星标仓库。通过 star_history 追踪星标增量,而不是总数。这直接类比动量因子——你捕捉的是加速度,而不是已经发生的事。

⚠️主要陷阱: 永远不要要求 LLM"预测一个仓库是否会走红"。这和域名倒卖的概念是同一个错误——模型会返回一个自信但空洞的预测。LLM 擅长分类和摘要,但在为缺乏训练数据和反馈回路的非流动性资产定价方面很弱。让它待在自己的优势区域:它是什么,为什么重要,谁需要它。将增长作为一个指标(速度)来计算,而不是让模型去预测。

第 3 层 - 包装

生成双语摘要,并强制进行最终链接检查和去重(与之前版本对比)。

去重

没有什么比两次发布同一个仓库更糟糕的了。根据 repo_id 匹配,而不是名称(名称可能会在重命名时改变)。

最终链接检查

组装摘要

💡提示: 在自动化之前,先手动构建 MVP 一周。这是你的产品回测。手动组装摘要七天,你会在根据错误标准编写过滤器之前,了解到什么对你的受众真正有价值。自动化一个错误的产品,是犯错最昂贵的方式。

第 4 层 - 分发与编排

发布到 Telegram

通过 n8n 编排

n8n (⭐191k) 是完美协调整个流程的工具,无需手动编写 cron 守护进程。工作流形态:

现在实际在运行什么(已验证)

以下仓库在撰写本文时已通过 GitHub API 直接验证,计数器为撰写时的实时数据:

n8n (github.com/n8n-io/n8n) - ⭐191k - fair-code 工作流自动化,原生集成 AI。整个流程的理想编排器

Open WebUI (github.com/open-webui/open-webui) - ⭐140k - 本地大语言模型界面,支持 Ollama 和 OpenAI API

browser-use (github.com/browser-use/browser-use) - ⭐97k - 面向 Agent 的浏览器自动化。你的无 API 源的抓取层

nanochat (github.com/karpathy/nanochat) - ⭐54k - 完整的 LLM 管线,在一个可读的仓库里,作者 Andrej Karpathy。用于理解你在分析什么

基于最新网页来源(2026年5月),但发布前请自行复核:OpenClaw(已突破 30 万星标,Peter Steinberger 的本地 AI 助手)、Ollama、Dify、ComfyUI、OpenHands、Firecrawl

⚠️ 星标每日变动。切勿直接引用别人文章甚至本文中的数字——在发布时自己调 API 获取。一篇关于信息精选的文章出现死数或过期数,对信任的伤害是双倍的

商业拆解:实打实的经济账

变现——多层结构,而非单一渠道

免费精选(Telegram + X)——扩大受众,滋养社区。这正是你的反知识付费定位的纯粹表现:别人卖 30 美元/月的东西,你免费给。"AI 是每个人口袋里的镐子"——字面意思

付费层——深度解读,比所有人都快,附带现成代码和集成。小众增长慢;初期别把它当主要赌注

赞助——AI 工具花钱投放在精准、预热的受众面前。在窄众领域,这是主要现金流,而非订阅。对广告主来说,一个 5000 人对口读者比 10 万随机用户更有价值

数据即产品——面向构建者的结构化数据集或 API,"开源 AI 中发布了什么,已过滤和标注"。这是已经在运行的管线的副产品

你的真实优势在哪

利基 = 你的专业。你能在通用 Agent 失败的地方区分信号和噪声。这无法被一段提示词取代

分发已经存在。关键。没有受众的精选是增长工具,而非生意。有了受众,则恰恰相反

内容管线已搭建好。你自动化的是你手工做过的事,而非从零建生意。风险极小

竞争对手很弱——要么是慢吞吞的人工操作者,要么是没有筛选和判断的傻瓜聚合器

诚实结论

可行性:9/10——你已经拥有整套技术栈,无需学习新东西

盈利能力:6-7/10——小众订阅增长缓慢;收入来自分发和赞助,而非直接

弱点(不美化)

订阅变现慢,需要关键受众规模。如果你已经有了——这套系统飞起来。如果没有——它首先是增长工具,其次才是生意。不是反过来。任何一个没有现成分发、只为了钱而做精选的人,到第三个月就会失望。有受众的人则白得一个增长和内容引擎

第二个诚实提醒:这不是被动收入。管线在收集和过滤上是自动的,但最终的专家眼光和面向特定受众的包装无法完全自动化——否则你就成了你对抗的傻瓜聚合器

技术栈与要点

Python · Postgres · Anthropic API (Haiku + Opus 双循环) · GitHub/arXiv API · browser-use/Playwright · n8n (编排) · Telegram Bot API

这些你都碰过。这里的新生意不是技术——是包装和分发。技术是已解决的问题;稀缺的是筛选能力与受众信任

公开构建:一个真实系统的坦诚剖析,比另一个成功故事更打动人。展示管线、展示代码、展示数字——精选本身就成了最好的广告

AI content creator & author @vorty279

可行性:9/10——你已经拥有整套技术栈,无需学习新东西

盈利能力:6-7/10——小众订阅增长缓慢;收入来自分发和赞助,而非直接

弱点(不美化)

订阅变现慢,需要关键受众规模。如果你已经有了——这套系统飞起来。如果没有——它首先是增长工具,其次才是生意。不是反过来。任何一个没有现成分发、只为了钱而做精选的人,到第三个月就会失望。有受众的人则白得一个增长和内容引擎

第二个诚实提醒:这不是被动收入。管线在收集和过滤上是自动的,但最终的专家眼光和面向特定受众的包装无法完全自动化——否则你就成了你对抗的傻瓜聚合器

技术栈与要点

Python · Postgres · Anthropic API (Haiku + Opus 双循环) · GitHub/arXiv API · browser-use/Playwright · n8n (编排) · Telegram Bot API

这些你都碰过。这里的新生意不是技术——是包装和分发。技术是已解决的问题;稀缺的是筛选能力与受众信任

公开构建:一个真实系统的坦诚剖析,比另一个成功故事更打动人。展示管线、展示代码、展示数字——精选本身就成了最好的广告

AI content creator & author @vorty279

相关案例