# 决策：FFAI Agent 运维相关 PR 延后做

**日期**：2026-05-16
**决策人**：chentao（用户明示）
**载入**：PR `feature/agent-phase1-quality-batch`

## 决策内容

Phase 1 中两项**运维相关**工作延后：

| PR | 范围 | 延后原因 |
|---|---|---|
| **PR0.6 Day-1 Ops Baseline** | Prometheus / Grafana / PagerDuty / feature flag / DR runbook | 需外部基础设施；非功能性 |
| **PR10 Cron Isolated Agent** | Temporal worker + 离职失效三层防线 + Credentials Vault | 需 Temporal 联通 + IAM webhook；非功能性主线 |

**用户原话**：「关于运维相关的，我们后面再做，我们现在先把功能都实现了。然后呢，关于 PR10 也先不用做。」

## PR0.6 触发时同步要补的 Phase 1 缺口

PR0.6 上 UAT/生产前**必须**同步解决以下 Phase 1 期间留下的单进程假设：

- **cancel turn 跨进程信号通道**：当前 `messages.service.ts` `activeTurns` 是 in-memory Map，
  多副本部署会让 `POST /agent/messages/:turnId/cancel` 静默失败（cancelled:false）。
  方案：Redis pub/sub 广播 abort 信号，或 LB 层 sticky session by turnId。
- 其他 in-memory state（如有）需在 PR0.6 inventory 时一并审计。

## 不影响范围

- Phase 1 其他 PR 全部完成（PR0.5/1/2/3/3.5/3.6/4a/4b/4c/4.5/5/6/7/8/9/10.5/10.6）已合 develop（PR #393）
- Phase 1 **功能性 follow-up** 继续推进（L1 集成测试 / cancel endpoint / HKDF / CHART artifact / StreamingToolExecutor 并发 / AskUserQuestion fallback / sub-agent 配额隔离 等）
- Phase 1 **SKELETON 升真**（PR4c S3+TSA / PR10.5 OneDrive / PR5 MCP Client）独立于运维，按外部依赖排期
- Phase 2 / Phase 3 不依赖 PR0.6 / PR10，可并行启动

## 何时重启

- PR0.6：上 UAT/生产前**必须**做（GA 硬要求），需基础设施实例先到位
- PR10：Cron Isolated Agent 是 Phase 1 用户故事 US-204 的实现，**GA 前必须做**；可延后但不能跳过

## 落点

- `docs/modules/agent/01-prd-phase1.md` §10.5 在 PR0.6 / PR10 行加备注引用本文件
- 后续 AI session 看到 §10.5 表会自动识别这两项状态
