chore(phase): Phase 1 收尾 — 一鸡多吃 + Dev工作台初始化 + Phase 2启动

- Phase 1 标记 100% 完成，Phase 2 标记 ACTIVE - Dev AI 工作台重写：8个任务入队 + 依赖关系图 - 一鸡多吃：6篇对外分享文章（项目缘起/框架思路/阶段复盘/3篇决策故事） - 新增 share-context Skill（内部文档→对外分享自动化） - P01 文档同步更新（需求/架构/接口定义） Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-26 12:01:04 +08:00
parent e3f4af9c0c
commit 5b428d0810
18 changed files with 1344 additions and 485 deletions
@@ -1,5 +1,75 @@
-# ADR-007 决策故事
+# ADR-007 决策故事：信息架构为什么从「大文档」变成「分层设计」

-> 信息架构为什么从"单体文档"变成"分层设计"
->
-> *（Phase 1 完成时撰写，基于 `.ai/knowledge/decisions.md` 中的 ADR-007 扩展）*
+## 背景
+
+ErrLens 项目从一开始就确定用「1 人 + 3 AI」的协作模式——Arch AI 做架构，Dev AI 写代码，QA AI 做测试。
+
+但怎么让 3 个 AI 高效协作？我最初的做法很朴素：写一个大的 AGENTS.md，把项目介绍、架构设计、开发规范、权限体系全塞进去，每个 AI 启动时都读这一份。
+
+然后问题就来了。
+
+---
+
+## 问题：AI 记不住、看不懂、互相干扰
+
+**第一个问题：记不住。**
+
+AGENTS.md 写到 2000 行时，Claude 的回复开始出现明显的「失忆」——前面提到的决策，后面讨论时就忘了。原因是上下文窗口虽然号称 200K token，但越靠后的内容，AI 的关注权重越低。
+
+**第二个问题：看不懂重点。**
+
+AGENTS.md 里混了所有信息——PRD 摘要、架构图、API 定义、目录结构、权限矩阵、Skill 描述……Dev AI 需要在 2000 行里找到和自己相关的 200 行。人类会跳读，AI 不会——它全读完后，重点已经淹没了。
+
+**第三个问题：互相干扰。**
+
+一个更隐蔽的问题：Dev AI 不需要知道 QA AI 的测试流程，Arch AI 不需要知道具体的代码目录结构。把不该看的信息喂给 AI，不仅浪费 token，更容易让它「想太多」——写出过度设计或不相关的代码。
+
+---
+
+## 选项
+
+| 选项 | 优势 | 劣势 |
+|------|------|------|
+| A: 维持单体文档 | 维护简单，改一处就行 | 越长越差，AI 协作天花板低 |
+| B: 精简 AGENTS.md | 立即可做 | 精简意味着丢掉信息，该有的细节还是要有的 |
+| C: 分层信息架构 | 每个 AI 只看自己的，token 利用率高 | 需要重新设计目录结构，上下游依赖要梳理清楚 |
+
+---
+
+## 思考过程
+
+我一开始想走 B 路线——把 AGENTS.md 精简到 500 行以内。但很快发现不行：精简掉的内容不是「冗余」，是「必要的细节」。比如 Drizzle Schema 定义，对 Dev AI 就是刚需，你不能为了省 token 把它删了。
+
+然后我想到一个类比：**人类团队怎么分工？**
+
+一个有 3 个员工的团队，不会把所有信息贴在一面墙上。而是每人有独立工位，各自维护自己的待办和参考资料。共享的信息放在公共区域。
+
+AI 也应该这样。
+
+选项 C 的核心逻辑：
+
+1. **仪表盘**（DASHBOARD.md）——给人类看，30 秒了解项目全貌，不写代码细节
+2. **路线图**（ROADMAP.md）——人+AI 共享视野，任务分配和进度跟踪
+3. **角色工作台**（`.ai/roles/{arch,dev,qa}/`）——每个 AI 自己的 today.md + queue.md，只加载自己需要的上下文
+4. **知识沉淀**（`.ai/knowledge/`）——ADR（架构决策记录）、journal（开发日志），按需加载
+
+每层有 token 预算。Arch AI 启动时加载约 3K token（today + queue + decisions），Dev AI 类似。比单体 AGENTS.md 的 15K+ token 减少了 80%。
+
+---
+
+## 结果
+
+分层后，几个明显的变化：
+
+- **AI 回复质量更稳定**：不再出现「前面说了后面忘」的情况
+- **上下文切换更快**：Dev AI 启动直接读 dev/today.md，不需要从 PRD 开始消化
+- **人类管理成本降低**：DASHBOARD.md 一眼看到项目状态，不需要翻 10 个文件
+- **「一鸡多吃」变得自然**：内部分层文档 → 去掉敏感信息 → 对外分享文章，流水线化
+
+如果重来一次，我会从第一天就做分层。单体文档阶段浪费了大约 1 天的 AI token 和人类审核精力。
+
+---
+
+## 一句话总结
+
+**为 AI 设计文档和为人设计文档，是完全不同的两件事。人会跳读，AI 不会——所以你的信息架构就是 AI 的注意力分配方案。**
@@ -0,0 +1,93 @@
+# ADR-009 决策故事：当 AI 识别不完美时，产品怎么设计
+
+## 背景
+
+ErrLens 的核心功能是：学生拍一张错题照片 → AI 识别题目内容 → 自动归类 → 分析错误原因 → 推荐同类练习。
+
+这个流程看起来很美好，但它建立在一个脆弱的假设上：**AI 能准确识别每一张照片。**
+
+现实是：中小学生的手写体，潦草起来连老师都看不懂。打印体 OCR 准确率可以到 95%+，但手写体的天花板大概在 70-80%。而且不只是 OCR——学科分类、知识点标注、错误类型诊断，每一步都可能出错。
+
+第一个版本的 PRD 里，我完全没考虑这个问题。数据流画得很漂亮：「拍照 → AI 识别 → 入库 → 分析 → 推荐」，仿佛 AI 不会出错。
+
+直到有人问我：「万一 AI 识别错了呢？」
+
+---
+
+## 问题：错误数据会污染整个系统
+
+如果 AI 把「二次函数顶点坐标」错标成「一次函数斜率」，会发生什么？
+
+1. 错题归到错误的知识点
+2. 薄弱点分析显示「一次函数薄弱」，实际是二次函数有问题
+3. 推荐系统给了 10 道一次函数的练习——和学生的真实弱项毫无关系
+4. 学生发现推荐不准确 → 不信任产品 → 弃用
+
+**一条错误数据进入分析管道，污染的是整个推荐飞轮。**
+
+传统方案的思路是「提高 AI 准确率」——换更好的模型、加训练数据、调 prompt。但这条路的天花板很明显：手写体 OCR 准确率从 70% 提升到 85% 已经很难了，90% 在可见的将来都不现实。
+
+而且，即使到了 90%，每 10 道错题就有 1 道是错的。100 道里有 10 道。对学生来说，10 次错误的推荐 = 再也不用了。
+
+---
+
+## 灵感：AI 做不好的事，让人来做
+
+问题的本质是：**AI 做识别很强但不够完美，人做识别很准但太慢。**
+
+那能不能结合起来？
+
+我当时想到一个关键洞察：**学生本来就要看自己拍了什么。** 拍照录入的过程不是「拍完就完了」，用户本来就会确认「这张照片拍清楚了吗」「题目对吗」。这个「确认」动作，天然就是数据校验的机会。
+
+于是设计了这样一个流程：
+
+```
+AI 识别结果不是「答案」，是「草稿」
+    ↓
+每个字段带置信度（这条我有多确定）
+    ↓
+高置信（>90%）：绿色标记，用户看一眼就行
+中置信（70%-90%）：黄色提示，建议检查
+低置信（<70%）：红色高亮，请手动修正
+    ↓
+用户确认/修正后 → 入库 → 进入分析管道
+未经确认的数据 → 仅自己可见，不参与分析和推荐
+```
+
+核心设计原则：**AI 是草稿，用户是编辑。分析管道只吃「干净数据」。**
+
+---
+
+## 隐藏收益：每一次修正都是免费的标注数据
+
+做到这一步后，我发现还有一个更大的收益。
+
+用户修正时，系统记录两个值：
+- `ai_value`：AI 的原始识别结果（比如标注为「二次函数顶点坐标」）
+- `user_value`：用户修正后的值（实际是「二次函数图像性质」）
+- `ai_confidence`：AI 当时对这个判断的置信度（0.72）
+
+这条修正记录（CorrectionLog）就是一条**完美的标注数据**：
+
+- 有原始模型输出（ai_value）
+- 有人工标注结果（user_value）
+- 有模型当时的置信度（可用于误差分析）
+
+传统 AI 训练需要花钱请人标注数据。ErrLens 的标注员是用户——而且他们免费标注，甚至感谢你给了他们一个「修正」的功能。
+
+P02 阶段（自研模型），这些 CorrectionLog 就是核心训练数据。产品用得越多，修正记录越多，模型越强——这是真正的数据飞轮。
+
+---
+
+## 结果
+
+- error_items 表新增 `verification_status`（raw→reviewed→corrected→stale）和 `ai_confidence`（JSONB）
+- 新增 `correction_logs` 表，记录每一条人机修正
+- 分析/推荐查询强制加 `WHERE verification_status != 'raw'`
+- 前端 UI 设计绿/黄/红三级置信度指示
+
+---
+
+## 一句话总结
+
+**AI 的弱点不一定是产品的弱点——如果你能设计一个把「AI 错误」变成「用户价值」的闭环。**
@@ -0,0 +1,87 @@
+# 决策故事：当两个架构要合并——30 项决策是怎么做的
+
+## 背景
+
+ErrLens 不是一个从零开始的项目。
+
+在正式立项之前，我已经花了几周时间写了一个叫「家庭教育小程序」的架构设计——17 份文档，约 60,000 字，覆盖了小程序端、数据库、图像处理、交互设计、UI 规范、测试方案、部署方案等方方面面。
+
+唯一的问题是：那个架构是面向「小学 5-6 年级学生家长 + 仅数学」的，用的是「微信云开发 + 云函数」的技术栈。而 ErrLens 定位已经变成了「小学初中学生 + 数学英语 + 自建后端」。
+
+两套架构，一个旧一个新，重叠但不兼容。旧架构不能直接复用——技术栈变了。但也不能扔掉——里面有很多经过 Spike 验证的工程方案（图像处理管线、打印设计、UI 规范）。
+
+问题变成：**怎么系统地把旧架构中有价值的部分提取出来，合并到新架构里，而不是陷入无休止的细节讨论？**
+
+---
+
+## 方法：结构化对比，逐项决策
+
+我让 Arch AI 把 17 份旧文档全部读完后，把两套架构的差异拆成 30 个独立维度，按性质分成四类：
+
+### 第一类：冲突项（8 项）
+
+两套设计说了不同的话，必须二选一。
+
+| 示例 | 旧架构 | 新架构 | 结论 |
+|------|--------|--------|------|
+| 技术栈 | 微信云开发 | NestJS + PostgreSQL | 选新架构，因为需要 Coze 沙盒自动化测试 |
+| 目标用户 | 家长操作 | 学生本人 | 两者都要，学生和家长都可以操作 |
+| 学科范围 | 仅数学 | 数学+英语 | 新架构已锁定 |
+
+### 第二类：旧有新增（9 项）
+
+旧架构有但新架构缺失的有价值功能。
+
+| 示例 | 旧架构设计 | 决定 |
+|------|-----------|------|
+| 错题打印 | 完整 PDF 生成+下载流程 | 纳入 MVP，P0 |
+| 图像预处理管线 | CLAHE+笔迹去除，经 Spike 验证 | 前置到 OCR 之前 |
+| UI 设计规范 | 完整规范文档，28 个图标 | 整体迁移 |
+
+### 第三类：新有新增（7 项）
+
+新架构创新，旧架构完全没有。直接保留，不讨论。
+
+### 第四类：各有优劣（6 项）
+
+两边方案各有利弊，需要权衡。
+
+| 示例 | 结论 |
+|------|------|
+| 知识点编码：业务编码 vs 数字 ID | 两者并存，ID 内部关联 + code 对外暴露 |
+| 题目匹配：关键词 vs AI 语义 | 两阶段：关键词粗筛 → AI 精排 |
+
+30 项决策，逐条过。人类拍板，AI 记录，一项一项写入架构文档。
+
+---
+
+## 思考：为什么能在一小时内完成 30 个决策？
+
+如果让我一个人对着两份架构文档做合并，至少需要两天——读旧文档需要半天，对比需要一天，写合并方案再半天。
+
+但 AI 可以：
+
+1. **并行阅读**：17 份旧文档在 30 秒内全部读完并提取要点
+2. **结构化拆解**：自动将差异按「冲突/新增/缺失/优劣」分类
+3. **草拟选项**：每个维度列出优劣对比，方便人类判断
+4. **即时落地**：决策一旦确认，5 分钟内更新完所有相关文档
+
+人类的角色非常清晰：**做判断。** AI 负责列出选项、分析利弊、写成文档——人类只需要说「同意」「不同意」或「换个方案」。
+
+这个协作模式的核心是：**人类不需要被 AI 告诉该怎么做，而是让 AI 把所有信息准备好，自己做决定。**
+
+---
+
+## 关键收获
+
+1. **分类框架是决策效率的关键。** 「冲突/新增/缺失/优劣」这个四象限让复杂对比变得可管理。下次遇到类似问题可以直接复用。
+
+2. **决策粒度要适中。** 太细（每个字段风格讨论）浪费精力，太粗（「技术栈全换」一句话）埋隐患。30 项这个数量级刚好——半天做完，该覆盖的都覆盖了。
+
+3. **旧资产不要扔。** 旧架构虽然技术栈变了，但设计思路、工程参数、Spike 验证结论都是真金白银的积累。要有系统的方法提取价值。
+
+---
+
+## 一句话总结
+
+**架构合并不需要你穷尽每一个细节。把它拆成独立的决策单元，人类逐项拍板，AI 负责剩下的——这就是「人机协同」在架构设计上的应用。**
@@ -1,3 +1,80 @@
-# Phase 1: 基础搭建 — 阶段复盘
+# Phase 1 阶段复盘：基础搭建

-> *（Phase 1 完成时由 Arch AI 撰写，基于 `.ai/phases/phase-01-foundation/completion.md` 扩展）*
+## 阶段信息
+
+- 阶段编号：Phase 1/4
+- 阶段名称：基础搭建
+- 时间范围：2026-05-23 ~ 2026-05-26（4 天）
+- 参与角色：人类 + Arch AI（Claude）
+
+## 做了什么
+
+Phase 1 不写一行业务代码。目标是「把骨架搭好，让 AI 知道该做什么」：
+
+1. **信息架构重构**（ADR-007）：从单体 AGENTS.md 到四层分层架构
+2. **PRD 编写**（v0.3.0 → v0.4.0）：完整的错题本产品需求文档，含人机协同数据闭环
+3. **系统架构设计**（v0.3.0 → v0.4.0）：总体架构、技术选型、模块设计、数据模型
+4. **旧架构合并**：将早期「家庭教育小程序」的 17 份架构文档与当前设计对比，30 项决策逐项确认
+5. **Dev AI 工作台初始化**：8 个开发任务入队，含依赖关系图
+
+交付物：10 份文档，约 30,000 字。
+
+## 关键决策
+
+### 决策 1：人机协同数据闭环（ADR-009）
+
+**问题**：AI OCR 对手写体的识别率不可能 100%，错误数据直接进入分析会污染整个系统。
+
+**方案**：「AI 是草稿，用户是编辑。」AI 识别结果带置信度入库，用户确认/修正后才进入分析管道。每一次修正都是免费的标注数据，P02 阶段用于训练自有模型。
+
+**为什么重要**：这是产品数据飞轮的核心设计。没有这个闭环，产品就是普通的拍照 OCR 工具。
+
+### 决策 2：分层信息架构（ADR-007）
+
+**问题**：单体 AGENTS.md 太长，AI 注意力衰减，不同角色的信息混在一起。
+
+**方案**：四层结构——仪表盘（人类）→ 路线图（共享）→ 角色工作台（AI 个人）→ 知识沉淀（共享）。每个 AI 只加载自己需要的信息。
+
+**为什么重要**：这是整个 AI 协作模式的基础。没有好的信息架构，AI 再多也协同不起来。
+
+### 决策 3：旧架构合并
+
+**问题**：之前写的「家庭教育小程序」架构文档（17 份，约 60,000 字）不能白写，但又不能简单照搬——技术栈、用户定位、学科范围全变了。
+
+**方案**：逐项对比，分成「冲突」「旧有新增」「新有新增」「各有优劣」四类，30 项决策逐条确认后统一写入新架构。
+
+**为什么重要**：这是第一次「AI 辅助做架构合并」的实践。30 个决策不是 AI 自己拍板的，是人类逐条确认的。这个流程本身是一个可复用的方法论。
+
+## 踩过的坑
+
+### 坑 1：Edit 工具字符串匹配失败
+
+短字符串替换没问题，但一次替换多个段落时经常找不到。原因是前面的修改已经改变了文件内容，后续匹配的目标字符串已不匹配。
+
+**解法**：大段落修改拆成多次小修改，每次改动后确认文件当前状态再改下一个。宁可多改几次，不要一次写一大段。
+
+### 坑 2：数据飞轮第一版太天真
+
+最初的 PRD 版本假设「AI 拍完照就能完美识别」。被指出后才意识到这是核心风险。后来整个飞轮设计推翻重写——从「AI 完美假设」变成「人机协同闭环」。
+
+**教训**：架构评审中，人的经验和直觉是 AI 替代不了的。AI 擅长帮你把想法落地成文档，但不会主动挑战你的假设。
+
+## 学到的东西
+
+1. **AI 协作的效率瓶颈不在 AI，在信息组织。** 文档写得好，AI 输出质量就高；文档一团乱，再强的模型也白搭。
+2. **人类做决策，AI 做执行，是最佳的协作模式。** 30 项旧架构合并决策，AI 列出选项和优劣，人类逐条拍板，AI 写入文档——这个流程的效率远超纯人工或纯 AI。
+3. **架构文档应该「分层写」。** 不是一份文档覆盖所有细节，而是不同层次的文档给不同角色看。这和代码的「关注点分离」是一个道理。
+4. **旧资产不要扔。** 旧架构文档虽然技术栈变了，但图像处理管线、打印设计、UI 规范、测试用例都是可复用资产。关键是要有一个结构化的对比流程来提取价值。
+
+## 数据
+
+- 新增/更新文档：17 份（不含旧架构原文件）
+- 总字数：约 30,000 字（PRD + 4 份架构文档 + ADR + 看板 + 分享内容）
+- 架构决策记录：10 条（ADR-001 ~ ADR-010）
+- 旧架构合并决策：30 项
+- Dev 任务入队：8 个
+- 代码行数：0（Phase 1 不写代码）
+
+## 下一阶段预告
+
+Phase 2 MVP：数据库 Schema → Auth → Image → Print → User → Upload → 页面骨架。Dev AI 开始写代码，QA AI 启动自动化测试。