chore(phase): Phase 1 收尾 — 一鸡多吃 + Dev工作台初始化 + Phase 2启动
- Phase 1 标记 100% 完成,Phase 2 标记 ACTIVE - Dev AI 工作台重写:8个任务入队 + 依赖关系图 - 一鸡多吃:6篇对外分享文章(项目缘起/框架思路/阶段复盘/3篇决策故事) - 新增 share-context Skill(内部文档→对外分享自动化) - P01 文档同步更新(需求/架构/接口定义) Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
@@ -1,5 +1,75 @@
|
||||
# ADR-007 决策故事
|
||||
# ADR-007 决策故事:信息架构为什么从「大文档」变成「分层设计」
|
||||
|
||||
> 信息架构为什么从"单体文档"变成"分层设计"
|
||||
>
|
||||
> *(Phase 1 完成时撰写,基于 `.ai/knowledge/decisions.md` 中的 ADR-007 扩展)*
|
||||
## 背景
|
||||
|
||||
ErrLens 项目从一开始就确定用「1 人 + 3 AI」的协作模式——Arch AI 做架构,Dev AI 写代码,QA AI 做测试。
|
||||
|
||||
但怎么让 3 个 AI 高效协作?我最初的做法很朴素:写一个大的 AGENTS.md,把项目介绍、架构设计、开发规范、权限体系全塞进去,每个 AI 启动时都读这一份。
|
||||
|
||||
然后问题就来了。
|
||||
|
||||
---
|
||||
|
||||
## 问题:AI 记不住、看不懂、互相干扰
|
||||
|
||||
**第一个问题:记不住。**
|
||||
|
||||
AGENTS.md 写到 2000 行时,Claude 的回复开始出现明显的「失忆」——前面提到的决策,后面讨论时就忘了。原因是上下文窗口虽然号称 200K token,但越靠后的内容,AI 的关注权重越低。
|
||||
|
||||
**第二个问题:看不懂重点。**
|
||||
|
||||
AGENTS.md 里混了所有信息——PRD 摘要、架构图、API 定义、目录结构、权限矩阵、Skill 描述……Dev AI 需要在 2000 行里找到和自己相关的 200 行。人类会跳读,AI 不会——它全读完后,重点已经淹没了。
|
||||
|
||||
**第三个问题:互相干扰。**
|
||||
|
||||
一个更隐蔽的问题:Dev AI 不需要知道 QA AI 的测试流程,Arch AI 不需要知道具体的代码目录结构。把不该看的信息喂给 AI,不仅浪费 token,更容易让它「想太多」——写出过度设计或不相关的代码。
|
||||
|
||||
---
|
||||
|
||||
## 选项
|
||||
|
||||
| 选项 | 优势 | 劣势 |
|
||||
|------|------|------|
|
||||
| A: 维持单体文档 | 维护简单,改一处就行 | 越长越差,AI 协作天花板低 |
|
||||
| B: 精简 AGENTS.md | 立即可做 | 精简意味着丢掉信息,该有的细节还是要有的 |
|
||||
| C: 分层信息架构 | 每个 AI 只看自己的,token 利用率高 | 需要重新设计目录结构,上下游依赖要梳理清楚 |
|
||||
|
||||
---
|
||||
|
||||
## 思考过程
|
||||
|
||||
我一开始想走 B 路线——把 AGENTS.md 精简到 500 行以内。但很快发现不行:精简掉的内容不是「冗余」,是「必要的细节」。比如 Drizzle Schema 定义,对 Dev AI 就是刚需,你不能为了省 token 把它删了。
|
||||
|
||||
然后我想到一个类比:**人类团队怎么分工?**
|
||||
|
||||
一个有 3 个员工的团队,不会把所有信息贴在一面墙上。而是每人有独立工位,各自维护自己的待办和参考资料。共享的信息放在公共区域。
|
||||
|
||||
AI 也应该这样。
|
||||
|
||||
选项 C 的核心逻辑:
|
||||
|
||||
1. **仪表盘**(DASHBOARD.md)——给人类看,30 秒了解项目全貌,不写代码细节
|
||||
2. **路线图**(ROADMAP.md)——人+AI 共享视野,任务分配和进度跟踪
|
||||
3. **角色工作台**(`.ai/roles/{arch,dev,qa}/`)——每个 AI 自己的 today.md + queue.md,只加载自己需要的上下文
|
||||
4. **知识沉淀**(`.ai/knowledge/`)——ADR(架构决策记录)、journal(开发日志),按需加载
|
||||
|
||||
每层有 token 预算。Arch AI 启动时加载约 3K token(today + queue + decisions),Dev AI 类似。比单体 AGENTS.md 的 15K+ token 减少了 80%。
|
||||
|
||||
---
|
||||
|
||||
## 结果
|
||||
|
||||
分层后,几个明显的变化:
|
||||
|
||||
- **AI 回复质量更稳定**:不再出现「前面说了后面忘」的情况
|
||||
- **上下文切换更快**:Dev AI 启动直接读 dev/today.md,不需要从 PRD 开始消化
|
||||
- **人类管理成本降低**:DASHBOARD.md 一眼看到项目状态,不需要翻 10 个文件
|
||||
- **「一鸡多吃」变得自然**:内部分层文档 → 去掉敏感信息 → 对外分享文章,流水线化
|
||||
|
||||
如果重来一次,我会从第一天就做分层。单体文档阶段浪费了大约 1 天的 AI token 和人类审核精力。
|
||||
|
||||
---
|
||||
|
||||
## 一句话总结
|
||||
|
||||
**为 AI 设计文档和为人设计文档,是完全不同的两件事。人会跳读,AI 不会——所以你的信息架构就是 AI 的注意力分配方案。**
|
||||
|
||||
@@ -0,0 +1,93 @@
|
||||
# ADR-009 决策故事:当 AI 识别不完美时,产品怎么设计
|
||||
|
||||
## 背景
|
||||
|
||||
ErrLens 的核心功能是:学生拍一张错题照片 → AI 识别题目内容 → 自动归类 → 分析错误原因 → 推荐同类练习。
|
||||
|
||||
这个流程看起来很美好,但它建立在一个脆弱的假设上:**AI 能准确识别每一张照片。**
|
||||
|
||||
现实是:中小学生的手写体,潦草起来连老师都看不懂。打印体 OCR 准确率可以到 95%+,但手写体的天花板大概在 70-80%。而且不只是 OCR——学科分类、知识点标注、错误类型诊断,每一步都可能出错。
|
||||
|
||||
第一个版本的 PRD 里,我完全没考虑这个问题。数据流画得很漂亮:「拍照 → AI 识别 → 入库 → 分析 → 推荐」,仿佛 AI 不会出错。
|
||||
|
||||
直到有人问我:「万一 AI 识别错了呢?」
|
||||
|
||||
---
|
||||
|
||||
## 问题:错误数据会污染整个系统
|
||||
|
||||
如果 AI 把「二次函数顶点坐标」错标成「一次函数斜率」,会发生什么?
|
||||
|
||||
1. 错题归到错误的知识点
|
||||
2. 薄弱点分析显示「一次函数薄弱」,实际是二次函数有问题
|
||||
3. 推荐系统给了 10 道一次函数的练习——和学生的真实弱项毫无关系
|
||||
4. 学生发现推荐不准确 → 不信任产品 → 弃用
|
||||
|
||||
**一条错误数据进入分析管道,污染的是整个推荐飞轮。**
|
||||
|
||||
传统方案的思路是「提高 AI 准确率」——换更好的模型、加训练数据、调 prompt。但这条路的天花板很明显:手写体 OCR 准确率从 70% 提升到 85% 已经很难了,90% 在可见的将来都不现实。
|
||||
|
||||
而且,即使到了 90%,每 10 道错题就有 1 道是错的。100 道里有 10 道。对学生来说,10 次错误的推荐 = 再也不用了。
|
||||
|
||||
---
|
||||
|
||||
## 灵感:AI 做不好的事,让人来做
|
||||
|
||||
问题的本质是:**AI 做识别很强但不够完美,人做识别很准但太慢。**
|
||||
|
||||
那能不能结合起来?
|
||||
|
||||
我当时想到一个关键洞察:**学生本来就要看自己拍了什么。** 拍照录入的过程不是「拍完就完了」,用户本来就会确认「这张照片拍清楚了吗」「题目对吗」。这个「确认」动作,天然就是数据校验的机会。
|
||||
|
||||
于是设计了这样一个流程:
|
||||
|
||||
```
|
||||
AI 识别结果不是「答案」,是「草稿」
|
||||
↓
|
||||
每个字段带置信度(这条我有多确定)
|
||||
↓
|
||||
高置信(>90%):绿色标记,用户看一眼就行
|
||||
中置信(70%-90%):黄色提示,建议检查
|
||||
低置信(<70%):红色高亮,请手动修正
|
||||
↓
|
||||
用户确认/修正后 → 入库 → 进入分析管道
|
||||
未经确认的数据 → 仅自己可见,不参与分析和推荐
|
||||
```
|
||||
|
||||
核心设计原则:**AI 是草稿,用户是编辑。分析管道只吃「干净数据」。**
|
||||
|
||||
---
|
||||
|
||||
## 隐藏收益:每一次修正都是免费的标注数据
|
||||
|
||||
做到这一步后,我发现还有一个更大的收益。
|
||||
|
||||
用户修正时,系统记录两个值:
|
||||
- `ai_value`:AI 的原始识别结果(比如标注为「二次函数顶点坐标」)
|
||||
- `user_value`:用户修正后的值(实际是「二次函数图像性质」)
|
||||
- `ai_confidence`:AI 当时对这个判断的置信度(0.72)
|
||||
|
||||
这条修正记录(CorrectionLog)就是一条**完美的标注数据**:
|
||||
|
||||
- 有原始模型输出(ai_value)
|
||||
- 有人工标注结果(user_value)
|
||||
- 有模型当时的置信度(可用于误差分析)
|
||||
|
||||
传统 AI 训练需要花钱请人标注数据。ErrLens 的标注员是用户——而且他们免费标注,甚至感谢你给了他们一个「修正」的功能。
|
||||
|
||||
P02 阶段(自研模型),这些 CorrectionLog 就是核心训练数据。产品用得越多,修正记录越多,模型越强——这是真正的数据飞轮。
|
||||
|
||||
---
|
||||
|
||||
## 结果
|
||||
|
||||
- error_items 表新增 `verification_status`(raw→reviewed→corrected→stale)和 `ai_confidence`(JSONB)
|
||||
- 新增 `correction_logs` 表,记录每一条人机修正
|
||||
- 分析/推荐查询强制加 `WHERE verification_status != 'raw'`
|
||||
- 前端 UI 设计绿/黄/红三级置信度指示
|
||||
|
||||
---
|
||||
|
||||
## 一句话总结
|
||||
|
||||
**AI 的弱点不一定是产品的弱点——如果你能设计一个把「AI 错误」变成「用户价值」的闭环。**
|
||||
@@ -0,0 +1,87 @@
|
||||
# 决策故事:当两个架构要合并——30 项决策是怎么做的
|
||||
|
||||
## 背景
|
||||
|
||||
ErrLens 不是一个从零开始的项目。
|
||||
|
||||
在正式立项之前,我已经花了几周时间写了一个叫「家庭教育小程序」的架构设计——17 份文档,约 60,000 字,覆盖了小程序端、数据库、图像处理、交互设计、UI 规范、测试方案、部署方案等方方面面。
|
||||
|
||||
唯一的问题是:那个架构是面向「小学 5-6 年级学生家长 + 仅数学」的,用的是「微信云开发 + 云函数」的技术栈。而 ErrLens 定位已经变成了「小学初中学生 + 数学英语 + 自建后端」。
|
||||
|
||||
两套架构,一个旧一个新,重叠但不兼容。旧架构不能直接复用——技术栈变了。但也不能扔掉——里面有很多经过 Spike 验证的工程方案(图像处理管线、打印设计、UI 规范)。
|
||||
|
||||
问题变成:**怎么系统地把旧架构中有价值的部分提取出来,合并到新架构里,而不是陷入无休止的细节讨论?**
|
||||
|
||||
---
|
||||
|
||||
## 方法:结构化对比,逐项决策
|
||||
|
||||
我让 Arch AI 把 17 份旧文档全部读完后,把两套架构的差异拆成 30 个独立维度,按性质分成四类:
|
||||
|
||||
### 第一类:冲突项(8 项)
|
||||
|
||||
两套设计说了不同的话,必须二选一。
|
||||
|
||||
| 示例 | 旧架构 | 新架构 | 结论 |
|
||||
|------|--------|--------|------|
|
||||
| 技术栈 | 微信云开发 | NestJS + PostgreSQL | 选新架构,因为需要 Coze 沙盒自动化测试 |
|
||||
| 目标用户 | 家长操作 | 学生本人 | 两者都要,学生和家长都可以操作 |
|
||||
| 学科范围 | 仅数学 | 数学+英语 | 新架构已锁定 |
|
||||
|
||||
### 第二类:旧有新增(9 项)
|
||||
|
||||
旧架构有但新架构缺失的有价值功能。
|
||||
|
||||
| 示例 | 旧架构设计 | 决定 |
|
||||
|------|-----------|------|
|
||||
| 错题打印 | 完整 PDF 生成+下载流程 | 纳入 MVP,P0 |
|
||||
| 图像预处理管线 | CLAHE+笔迹去除,经 Spike 验证 | 前置到 OCR 之前 |
|
||||
| UI 设计规范 | 完整规范文档,28 个图标 | 整体迁移 |
|
||||
|
||||
### 第三类:新有新增(7 项)
|
||||
|
||||
新架构创新,旧架构完全没有。直接保留,不讨论。
|
||||
|
||||
### 第四类:各有优劣(6 项)
|
||||
|
||||
两边方案各有利弊,需要权衡。
|
||||
|
||||
| 示例 | 结论 |
|
||||
|------|------|
|
||||
| 知识点编码:业务编码 vs 数字 ID | 两者并存,ID 内部关联 + code 对外暴露 |
|
||||
| 题目匹配:关键词 vs AI 语义 | 两阶段:关键词粗筛 → AI 精排 |
|
||||
|
||||
30 项决策,逐条过。人类拍板,AI 记录,一项一项写入架构文档。
|
||||
|
||||
---
|
||||
|
||||
## 思考:为什么能在一小时内完成 30 个决策?
|
||||
|
||||
如果让我一个人对着两份架构文档做合并,至少需要两天——读旧文档需要半天,对比需要一天,写合并方案再半天。
|
||||
|
||||
但 AI 可以:
|
||||
|
||||
1. **并行阅读**:17 份旧文档在 30 秒内全部读完并提取要点
|
||||
2. **结构化拆解**:自动将差异按「冲突/新增/缺失/优劣」分类
|
||||
3. **草拟选项**:每个维度列出优劣对比,方便人类判断
|
||||
4. **即时落地**:决策一旦确认,5 分钟内更新完所有相关文档
|
||||
|
||||
人类的角色非常清晰:**做判断。** AI 负责列出选项、分析利弊、写成文档——人类只需要说「同意」「不同意」或「换个方案」。
|
||||
|
||||
这个协作模式的核心是:**人类不需要被 AI 告诉该怎么做,而是让 AI 把所有信息准备好,自己做决定。**
|
||||
|
||||
---
|
||||
|
||||
## 关键收获
|
||||
|
||||
1. **分类框架是决策效率的关键。** 「冲突/新增/缺失/优劣」这个四象限让复杂对比变得可管理。下次遇到类似问题可以直接复用。
|
||||
|
||||
2. **决策粒度要适中。** 太细(每个字段风格讨论)浪费精力,太粗(「技术栈全换」一句话)埋隐患。30 项这个数量级刚好——半天做完,该覆盖的都覆盖了。
|
||||
|
||||
3. **旧资产不要扔。** 旧架构虽然技术栈变了,但设计思路、工程参数、Spike 验证结论都是真金白银的积累。要有系统的方法提取价值。
|
||||
|
||||
---
|
||||
|
||||
## 一句话总结
|
||||
|
||||
**架构合并不需要你穷尽每一个细节。把它拆成独立的决策单元,人类逐项拍板,AI 负责剩下的——这就是「人机协同」在架构设计上的应用。**
|
||||
@@ -1,3 +1,80 @@
|
||||
# Phase 1: 基础搭建 — 阶段复盘
|
||||
# Phase 1 阶段复盘:基础搭建
|
||||
|
||||
> *(Phase 1 完成时由 Arch AI 撰写,基于 `.ai/phases/phase-01-foundation/completion.md` 扩展)*
|
||||
## 阶段信息
|
||||
|
||||
- 阶段编号:Phase 1/4
|
||||
- 阶段名称:基础搭建
|
||||
- 时间范围:2026-05-23 ~ 2026-05-26(4 天)
|
||||
- 参与角色:人类 + Arch AI(Claude)
|
||||
|
||||
## 做了什么
|
||||
|
||||
Phase 1 不写一行业务代码。目标是「把骨架搭好,让 AI 知道该做什么」:
|
||||
|
||||
1. **信息架构重构**(ADR-007):从单体 AGENTS.md 到四层分层架构
|
||||
2. **PRD 编写**(v0.3.0 → v0.4.0):完整的错题本产品需求文档,含人机协同数据闭环
|
||||
3. **系统架构设计**(v0.3.0 → v0.4.0):总体架构、技术选型、模块设计、数据模型
|
||||
4. **旧架构合并**:将早期「家庭教育小程序」的 17 份架构文档与当前设计对比,30 项决策逐项确认
|
||||
5. **Dev AI 工作台初始化**:8 个开发任务入队,含依赖关系图
|
||||
|
||||
交付物:10 份文档,约 30,000 字。
|
||||
|
||||
## 关键决策
|
||||
|
||||
### 决策 1:人机协同数据闭环(ADR-009)
|
||||
|
||||
**问题**:AI OCR 对手写体的识别率不可能 100%,错误数据直接进入分析会污染整个系统。
|
||||
|
||||
**方案**:「AI 是草稿,用户是编辑。」AI 识别结果带置信度入库,用户确认/修正后才进入分析管道。每一次修正都是免费的标注数据,P02 阶段用于训练自有模型。
|
||||
|
||||
**为什么重要**:这是产品数据飞轮的核心设计。没有这个闭环,产品就是普通的拍照 OCR 工具。
|
||||
|
||||
### 决策 2:分层信息架构(ADR-007)
|
||||
|
||||
**问题**:单体 AGENTS.md 太长,AI 注意力衰减,不同角色的信息混在一起。
|
||||
|
||||
**方案**:四层结构——仪表盘(人类)→ 路线图(共享)→ 角色工作台(AI 个人)→ 知识沉淀(共享)。每个 AI 只加载自己需要的信息。
|
||||
|
||||
**为什么重要**:这是整个 AI 协作模式的基础。没有好的信息架构,AI 再多也协同不起来。
|
||||
|
||||
### 决策 3:旧架构合并
|
||||
|
||||
**问题**:之前写的「家庭教育小程序」架构文档(17 份,约 60,000 字)不能白写,但又不能简单照搬——技术栈、用户定位、学科范围全变了。
|
||||
|
||||
**方案**:逐项对比,分成「冲突」「旧有新增」「新有新增」「各有优劣」四类,30 项决策逐条确认后统一写入新架构。
|
||||
|
||||
**为什么重要**:这是第一次「AI 辅助做架构合并」的实践。30 个决策不是 AI 自己拍板的,是人类逐条确认的。这个流程本身是一个可复用的方法论。
|
||||
|
||||
## 踩过的坑
|
||||
|
||||
### 坑 1:Edit 工具字符串匹配失败
|
||||
|
||||
短字符串替换没问题,但一次替换多个段落时经常找不到。原因是前面的修改已经改变了文件内容,后续匹配的目标字符串已不匹配。
|
||||
|
||||
**解法**:大段落修改拆成多次小修改,每次改动后确认文件当前状态再改下一个。宁可多改几次,不要一次写一大段。
|
||||
|
||||
### 坑 2:数据飞轮第一版太天真
|
||||
|
||||
最初的 PRD 版本假设「AI 拍完照就能完美识别」。被指出后才意识到这是核心风险。后来整个飞轮设计推翻重写——从「AI 完美假设」变成「人机协同闭环」。
|
||||
|
||||
**教训**:架构评审中,人的经验和直觉是 AI 替代不了的。AI 擅长帮你把想法落地成文档,但不会主动挑战你的假设。
|
||||
|
||||
## 学到的东西
|
||||
|
||||
1. **AI 协作的效率瓶颈不在 AI,在信息组织。** 文档写得好,AI 输出质量就高;文档一团乱,再强的模型也白搭。
|
||||
2. **人类做决策,AI 做执行,是最佳的协作模式。** 30 项旧架构合并决策,AI 列出选项和优劣,人类逐条拍板,AI 写入文档——这个流程的效率远超纯人工或纯 AI。
|
||||
3. **架构文档应该「分层写」。** 不是一份文档覆盖所有细节,而是不同层次的文档给不同角色看。这和代码的「关注点分离」是一个道理。
|
||||
4. **旧资产不要扔。** 旧架构文档虽然技术栈变了,但图像处理管线、打印设计、UI 规范、测试用例都是可复用资产。关键是要有一个结构化的对比流程来提取价值。
|
||||
|
||||
## 数据
|
||||
|
||||
- 新增/更新文档:17 份(不含旧架构原文件)
|
||||
- 总字数:约 30,000 字(PRD + 4 份架构文档 + ADR + 看板 + 分享内容)
|
||||
- 架构决策记录:10 条(ADR-001 ~ ADR-010)
|
||||
- 旧架构合并决策:30 项
|
||||
- Dev 任务入队:8 个
|
||||
- 代码行数:0(Phase 1 不写代码)
|
||||
|
||||
## 下一阶段预告
|
||||
|
||||
Phase 2 MVP:数据库 Schema → Auth → Image → Print → User → Upload → 页面骨架。Dev AI 开始写代码,QA AI 启动自动化测试。
|
||||
|
||||
Reference in New Issue
Block a user