# #315 增量分析报告 · 2026-05-14

**生成时间**: 2026-05-14 12:15 +0800
**触发条件**: #259 merged 2026-05-11 14:43, 距今 ~3 天满足「3-5 天」窗口
**两份原始报告**:
- `testing/reports/ai-review-auto-eval-20260514.md`（综合分）
- `testing/reports/ai-review-stats-20260514-post259.md`（post-#259 3 天）
- 对照基线: `testing/reports/ai-review-stats-20260513.md`（5 天 mixed）

---

## 1. Auto-eval 综合分

| 指标 | 基线（#259 盘点） | 当前（14d）| 变化 |
|---|---|---|---|
| **综合分** | **72.5%** | **77.7%** | **+5.2pp** ✅ |
| 采纳率 | 99.5% | 98.7% (451/457) | ≈ |
| 自洽率 | 100% | 100% (246/246) | = |
| Block 合理性 | 50% (2 样本) | 66.7% (2/3) | ↑（样本仍偏小）|
| 漏检率 proxy | 高估 | 90.5% (76/84) | proxy 仍高估 |

**判定**：综合分 ≥ 70% 且趋势稳定（关键项采纳率/自洽率维持极高水平）。

## 2. Stats 收敛效果（D1/D2 优化）

将窗口收窄到 #259 merge 后 3 天（2026-05-11 12:12 → 2026-05-14 12:12），对照 5 天 mixed 基线：

| 指标 | 5d mixed 基线 | 3d post-#259 | 期望方向 | 实际 |
|---|---|---|---|---|
| 平均 review 次数/PR | 1.96 | **2.15** | ↓ | ↑ |
| ≥2 次 review PR 占比 | 50% (51/103) | **55% (43/78)** | ↓ | ↑ |
| 单 PR 最多 review | 10 (#247) | 10 (#247) | ↓ | = |
| 重复指控组数（state 漏）| 5 | **5** | →0 | 未清零 |
| DRY RUN 期评论占比 | 74% | 67% | ↓ | ↓（自然衰减）|

**判定**：
- **D1（触发收敛）效果未显现** — ≥2 次 PR 占比未下降反略升。Top 高频 PR 仍是同一批（#247=10, #303=7, #281=8, #304=8 等），多数为 pre-#259 累积
- **D2（state header 去重）部分生效但不彻底** — 重复指控 5 组未清零，仍能看到 "沿用上轮" 措辞但无 dedup（典型：#345 性能 / #320 文档一致性）
- 窗口偏短 + 含 #259 自身相关 PR 的反复（#320/#322/#333）可能稀释了正向信号

## 3. 决策

✅ **综合分 77.7% ≥ 70% 且关键质量指标稳定，满足 #315 第 3 条触发条件 → 立即启动 #316（D4 退出 DRY RUN）**

但 D1/D2 优化效果待回归，列为 follow-up（不阻塞 D4）：
1. **D1 回归**：window 再扩 7 天后重跑 stats，看 ≥2 次占比是否真下降；若仍未降，调查 `synchronize` 事件是否真被 workflow 触发条件过滤掉
2. **D2 回归**：抽查 5 组重复指控的 review log，确认 state header 实际是否注入到 prompt（vs 注入了但 AI 没用）

## 4. 关联

- 关闭 #315
- 启动 #316（D4 退出 DRY RUN）
- 解锁 #171（DRY RUN 转正评估）

---

_Generated for #315 by manual analysis on top of `ai-review-stats.py` + `ai-review-auto-eval.py`._