# 知识库模块 PRD

## 📋 文档信息

| 项目 | 内容 |
|------|------|
| 模块名称 | 知识库管理系统 (Knowledge Base) |
| 版本 | v1.2.3 |
| 创建日期 | 2025-12-19 |
| 最后更新 | 2026-02-25 |
| 负责人 | Product Team |
| 状态 | 🟢 落地关键细节深化，可评审 |

> 备注（实施口径）：检索与问答引擎已选定 **RAGFlow**，文档中涉及向量库/Embedding 的选型讨论为历史说明。

---

## 📖 目录

- [1. 产品概述](#1-产品概述)
  - [1.1 产品定位](#11-产品定位)
  - [1.2 产品目标](#12-产品目标)
  - [1.3 核心特性](#13-核心特性)
- [2. 核心价值](#2-核心价值)
  - [2.1 用户痛点](#21-用户痛点)
  - [2.2 业务价值](#22-业务价值)
  - [2.3 SharePoint 集成策略](#23-sharepoint-集成策略)
- [3. 用户角色](#3-用户角色)
  - [3.1 角色定义](#31-角色定义)
  - [3.2 角色权限矩阵](#32-角色权限矩阵)
- [4. 功能需求](#4-功能需求)
  - [4.1 文档管理](#41-文档管理)
  - [4.2 分类与组织](#42-分类与组织)
  - [4.3 搜索功能](#43-搜索功能)
  - [4.4 协作功能](#44-协作功能)
  - [4.5 权限管理](#45-权限管理)
  - [4.6 工作流集成](#46-工作流集成)
- [5. AI 智能功能](#5-ai-智能功能)
  - [5.1 AI 智能问答](#51-ai-智能问答)
  - [5.2 智能语义搜索](#52-智能语义搜索)
  - [5.3 自动摘要](#53-自动摘要)
  - [5.4 智能推荐](#54-智能推荐)
  - [5.5 智能标注](#55-智能标注)
  - [5.6 智能写作助手](#56-智能写作助手)
  - [5.7 知识图谱](#57-知识图谱)
  - [5.8 智能问答机器人](#58-智能问答机器人)
- [6. 术语表与定义管理](#6-术语表与定义管理)
  - [6.1 功能概述](#61-功能概述)
  - [6.2 核心功能](#62-核心功能)
  - [6.3 术语库集成](#63-术语库集成)
- [7. 用户体验](#7-用户体验)
  - [7.1 页面结构](#71-页面结构)
  - [7.2 响应式设计](#72-响应式设计)
- [8. 非功能需求](#8-非功能需求)
  - [8.1 性能要求](#81-性能要求)
  - [8.2 可用性](#82-可用性)
  - [8.3 安全性](#83-安全性)
  - [8.4 可扩展性](#84-可扩展性)
  - [8.5 监控与告警](#85-监控与告警)
- [9. 实施路线图](#9-实施路线图)
  - [9.1 Phase 1: MVP](#91-phase-1-mvp4-6-周)
  - [9.2 Phase 2: 增强功能](#92-phase-2-增强功能4-6-周)
  - [9.3 Phase 3: 高级特性](#93-phase-3-高级特性4-6-周)
  - [9.4 Phase 4: 运营支持](#94-phase-4-运营支持持续)
- [10. 成功指标与度量](#10-成功指标与度量)
  - [10.1 核心 KPI](#101-核心-kpi)
  - [10.2 关键指标](#102-关键指标)
  - [10.3 度量仪表板](#103-度量仪表板)
  - [10.4 业务影响指标](#104-业务影响指标)
  - [10.5 长期价值指标](#105-长期价值指标)
- [11. 风险与应对](#11-风险与应对)
- [12. 附录](#12-附录)

> 💡 **技术架构和数据模型**请参考：[03-architecture.md](./03-architecture.md) 与 [05-data-model.md](./05-data-model.md)

---

## 1. 产品概述

### 1.1 产品定位

**企业级 AI 驱动的智能知识库管理系统**，旨在帮助企业高效管理、检索和利用内部知识资产，通过 AI 技术提升知识获取效率和决策质量。

### 1.2 产品目标

| 维度 | 目标 |
|------|------|
| **效率提升** | 知识检索时间减少 70%，审批周期缩短 50% |
| **知识复用** | 知识重复率降低 50%，术语标准化 100% |
| **智能化** | 80% 的问题通过 AI 自动回答 |
| **协作** | 团队知识贡献率提升 3 倍，采用率达 85% |
| **质量** | 产品/运营错误率降低 60% |
| **组织记忆** | 关键知识保留率达 90%，知识流失率降至 10% |
| **合规** | 100% 符合数据安全和审计要求 |

### 1.3 核心特性与模块职责

```mermaid
mindmap
  root((知识库))
    文档管理
      SharePoint集成
      最新版本索引
      权威性管理
      标签分类
      去重检测
    AI 智能
      智能问答(RAG)
      语义搜索
      自动摘要
      智能推荐
      术语识别
    协作功能
      评论讨论
      知识评分
      专家认证
      贡献者排行
    权限管理
      RBAC权限
      数据隔离
      审批集成
      敏感控制
    术语表
      术语管理
      自动链接
      智能识别
      多语言支持
    用户支持
      FAQ文档
      智能问答
      反馈收集
      文档推荐
```

**模块职责说明**：

| 功能领域 | 知识库职责 | 依赖的其他模块 |
|---------|-----------|---------------|
| **文档管理** | SharePoint 集成、索引、权威性 | [文档编辑引擎](../document-editor/) - 版本控制 |
| **AI 智能** | RAG 问答、语义搜索 | AI 服务（基础设施）- LLM/Embedding |
| **协作功能** | 评论关联、评分逻辑 | [反馈系统](../feedback/) - 评分/反馈<br>[通知引擎](../notification/) - 通知<br>[文档编辑引擎](../document-editor/) - 富文本 |
| **权限管理** | 文档权限、数据隔离 | [审批引擎](../approval/) - 审批流程<br>[组织架构](../organization/) - 用户/角色 |
| **用户支持** | FAQ 文档、AI 问答 | [反馈系统](../feedback/) - 反馈收集<br>[工单系统](../tickets/) - 工单支持（可选）|

> 💡 **设计原则**：知识库聚焦**知识管理核心能力**（索引、检索、AI 问答、权威性），复用其他模块的通用能力（编辑、审批、反馈、通知）。

---

## 2. 核心价值

### 2.1 用户痛点与解决方案

| 痛点 | 现状 | 解决方案 | 依赖模块 |
|------|------|----------|---------|
| 🔍 **检索困难** | 关键词搜索不准确 | AI 语义搜索 + 术语标准化 | 知识库（本模块）|
| 📚 **知识分散** | 文档散落各处 | 统一知识库 + SharePoint 集成 | 知识库（本模块）|
| 🕐 **效率低下** | 重复查找和创建 | 去重检测 + 智能推荐 | 知识库（本模块）|
| 🧠 **经验流失** | 员工离职带走知识 | 知识沉淀 + AI 问答 | 知识库（本模块）|
| 🔒 **权限混乱** | 不知道谁能看什么 | RBAC 权限控制 | 知识库 + [组织架构](../organization/) |
| ⏰ **审批缓慢** | 审批流程复杂 | 48小时SLA + 智能路由 | [审批引擎](../approval/) |
| 📊 **缺乏洞察** | 不知道知识价值 | 完整度量体系 | 知识库（本模块）|
| 🔤 **术语混乱** | 同一概念多种叫法 | 企业术语库 | 知识库（本模块）|

### 2.2 业务价值

**对企业**：
- ✅ 降低培训成本 60%
- ✅ 提升决策效率 50%
- ✅ 减少知识重复工作 40%
- ✅ 提高客户满意度 30%

**对员工**：
- ✅ 快速找到所需信息
- ✅ 减少重复性工作
- ✅ 提升个人生产力
- ✅ 促进知识分享文化

### 2.3 SharePoint 集成策略

**基于现有基础设施的混合模式**：利用公司现有 SharePoint 作为文档存储和管理基础，在其之上构建 AI 增强层。

#### 2.3.1 为什么选择 SharePoint

| 优势 | 说明 | 业务价值 |
|------|------|----------|
| 🏢 **现有基础设施** | 公司已部署并运行 | • 零额外采购成本<br>• 立即可用 |
| 👥 **用户熟悉度** | 员工已熟悉操作 | • 培训成本降低 80%<br>• 上手时间缩短 |
| 📝 **Office 365 集成** | Word/Excel/PPT 在线编辑 | • 无缝协作体验<br>• 提升效率 40% |
| 🔐 **企业级安全** | 符合安全合规标准 | • 降低安全风险<br>• 审计就绪 |
| 💰 **投资保护** | 利用现有许可 | • ROI 最大化<br>• 成本节约 60%+ |

#### 2.3.2 SharePoint 同步策略（关键落地点）

**核心原则**：SharePoint 存储文件，知识库存储索引

```
┌─────────────────────────────────────────────────────────┐
│                    混合架构分层                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  SharePoint (文件层)          知识库 (索引层)           │
│  ├─ 📁 文件本体存储           ├─ 📇 文档元数据          │
│  ├─ 📋 版本历史               ├─ 🔍 全文索引           │
│  ├─ 🔐 权限 ACL              ├─ 🧠 向量嵌入           │
│  ├─ 📝 Office Online 编辑    ├─ 📊 使用统计           │
│  └─ 💾 备份恢复              └─ 🔗 引用链接           │
│                                                         │
│  用户访问流程：                                         │
│  1. 搜索/问答 → 知识库索引                              │
│  2. 点击文档 → 跳转 SharePoint 预览/下载                │
│  3. 在线编辑 → 直接调用 SharePoint/Office Online        │
└─────────────────────────────────────────────────────────┘
```

**文档来源配置**：
- **Site 范围**：指定需要同步的 Site Collection 和 Document Library
- **包含/排除规则**：支持按文件夹路径、文件类型、元数据过滤
- **预设模板**：部门文档库、项目文档库、知识中心等

**同步内容详解**：

| 数据类型 | 存储位置 | 同步到 KB | 说明 |
|---------|---------|----------|------|
| **文件本体** | ✅ SharePoint | ❌ 不同步 | 文件保持在 SP，KB 只存链接 |
| **文档元数据** | ✅ SharePoint | ✅ 完整同步 | 标题、作者、创建/修改时间、标签、分类 |
| **文本内容** | ✅ SharePoint | ✅ 提取索引 | 提取文本用于全文搜索和语义搜索 |
| **版本信息** | ✅ SharePoint | ✅ 版本号 | 仅同步版本号和变更描述，不存储文件 |
| **权限信息** | ✅ SharePoint | ⚠️ Phase 2+ | 将 SP ACL 映射为 KB RBAC |
| **缩略图** | ✅ SharePoint | ✅ 缓存链接 | 仅存 SP 缩略图 URL |
| **评论/评分** | ❌ | ✅ KB 存储 | KB 自有的协作功能数据 |

**同步方式**：

| 阶段 | 同步模式 | 触发方式 | 同步内容 |
|------|---------|---------|---------|
| **初始化** | 全量索引 | 手动触发 | 遍历 SP 文档，提取元数据和文本，建立索引和向量 |
| **日常运行** | 增量索引 | Webhook + 15分钟轮询 | Webhook 实时捕获新增/修改/删除，轮询作为兜底 |
| **重建索引** | 全量索引 | 管理员触发 | 出现不一致时，重新提取和索引 |

**Webhook 可靠性保障**（运维关键）：

| 维度 | 策略 | 说明 |
|------|------|------|
| **订阅有效期** | 180 天（SP 标准） | 到期前 7 天自动续订 |
| **订阅管理** | 自动续订 + 健康检查 | 每日检查订阅状态，失效立即重建 |
| **失败重试** | 指数退避（1s → 2s → 4s → 8s → 16s） | 最多重试 5 次 |
| **死信队列（DLQ）** | 5 次失败后进 DLQ | 人工介入或次日批量处理 |
| **轮询兜底** | 每 15 分钟 | 回看最近 24 小时变更，捕获 Webhook 遗漏 |
| **变更窗口** | 24 小时回看 | 轮询检查过去 24h 的 ModifiedDate |
| **监控告警** | Webhook 失败率 > 5% | 自动告警，立即触发全量对比 |

**可靠性保证**：
- ✅ Webhook + 轮询双保险，理论上不会遗漏变更
- ✅ 24小时回看窗口，即使 Webhook 全部失败，最多延迟 24h
- ✅ DLQ + 人工介入，处理极端异常

> 💡 **技术实现细节**请参考：[03-architecture.md - Webhook 订阅管理](./03-architecture.md#webhook-订阅管理)

**文本提取策略**：

| 文件类型 | 提取方式 | 提取内容 | MVP 范围 | Phase 2+ |
|---------|---------|---------|---------|----------|
| **Office 文件** | Microsoft Graph API | 纯文本内容 | ✅ 可检索文本 | 按段落/标题结构切分 |
| **PDF** | PDF.js 或 Azure Form Recognizer | 文本 + 结构 | ✅ 纯文本提取 | OCR + 表格识别 |
| **Markdown/文本** | 直接读取 | 完整内容 | ✅ 保留格式 | 语法高亮、引用解析 |
| **图片/视频** | 元数据 only | 文件名、标签 | ✅ 元数据索引 | 图像识别、视频转写 |

**文本提取颗粒度**：

| 阶段 | 提取颗粒度 | 说明 | 业务价值 |
|------|-----------|------|----------|
| **MVP** | 全文提取（扁平） | • 提取完整可检索文本<br>• 不追求结构还原<br>• 适用于全文搜索和基础问答 | ✅ 快速上线，满足核心搜索需求 |
| **Phase 2** | 结构化切分 | • 按段落/标题/章节切分<br>• 保留层级关系<br>• 提高引用颗粒度 | ✅ 提升答案可解释性<br>✅ 精确定位到段落 |
| **Phase 3+** | 语义分块 | • 基于语义边界切分<br>• 智能合并相关内容<br>• 上下文感知 | ✅ 最佳 RAG 效果 |

**MVP 文本提取口径**：
- ✅ **目标**：提取可检索文本，支持全文搜索和基础问答
- ✅ **方法**：Microsoft Graph API `GET /drives/{drive-id}/items/{item-id}/content` 获取纯文本
- ❌ **不追求**：格式还原、精确布局、复杂结构（表格、图表）
- ✅ **足够用于**：关键词搜索、语义搜索、AI 问答

**Phase 2 结构化切分优势**：
- 📍 **精确引用**：AI 答案可引用到具体段落/章节
- 📊 **颗粒度控制**：避免上下文过长或过短
- 🎯 **可解释性**：用户点击引用直接跳转到段落位置

> 💡 **技术实现细节**请参考：[03-architecture.md - 文本提取与切分](./03-architecture.md#文本提取与切分)

**权限映射规则**：

```
SharePoint ACL → KB RBAC 映射策略：
├── SharePoint Group → KB Role
│   ├── Site Owners → 知识管理员
│   ├── Site Members → 知识贡献者
│   └── Site Visitors → 普通用户
├── 继承策略
│   ├── Site/Library 权限 → 继承到所有子内容
│   ├── Folder 权限 → 继承到所有子文档
│   └── Item 级权限 → 读取并独立映射
├── 权限缓存
│   ├── 缓存时长：15 分钟
│   └── 失效策略：Webhook 通知权限变更时立即失效
└── 特殊场景
    ├── 共享链接 → 临时访客权限（记录过期时间）
    └── 外部用户 → 隔离访客角色
```

**MVP 阶段权限支持范围**（验收边界）：

> 说明：MVP 仅做站点级访问控制（应用权限），不做用户级 ACL 映射与过滤；以下能力整体顺延至 Phase 2+。

| 权限类型 | MVP 支持 | Phase 2+ | 说明 |
|---------|---------|----------|------|
| **Site/Library 继承权限** | ❌ | ✅ 完全支持 | 标准权限继承 |
| **Folder 继承权限** | ❌ | ✅ 完全支持 | 文件夹级权限 |
| **Item-level 独立权限** | ❌ | ✅ 完整支持 | 读取权限并应用到搜索/问答 |
| **SharePoint Group** | ❌ | ✅ 完全支持 | 标准用户组映射 |
| **基础共享链接** | ❌ | ✅ 支持 | 公司内部/特定人员链接 |
| **复杂共享链接组合** | ❌ | ✅ | 多层嵌套、混合权限 |
| **外部来宾混合权限** | ❌ | ✅ | 外部用户只读访问 |
| **匿名链接** | ❌ 禁用 | ⚠️ 可选 | 安全考虑，默认禁用 |

**MVP 权限策略**：
- ✅ **支持**：站点级访问控制（应用权限）
- ❌ **不做**：用户级 ACL 映射与检索过滤（Phase 2+）
- ❌ **禁用**：匿名链接（安全考虑）

> 💡 **设计原则**：MVP 不追求"完美复刻 SharePoint 权限体系"，优先保证安全性和核心场景可用性。

**版本管理策略**：
- **主版本存储**：SharePoint 作为版本主库（Single Source of Truth）
- **KB 版本索引**：
  - 仅存储版本号、变更描述、变更时间、变更人
  - 不存储历史版本文件
  - 查看历史版本时跳转到 SharePoint
- **版本号对齐**：KB 版本号 = SP Major.Minor 版本
- **增量索引**：每次版本变更时，重新提取和索引最新版本文本

**存储成本对比**：

| 方案 | 存储内容 | 估算成本（1000个文档，平均5MB） | 优势 |
|------|---------|------------------------------|------|
| **方案A：完整同步** | 文件 + 元数据 + 索引 | 约 10GB（双份存储） | - |
| **方案B：索引同步（推荐）** | 元数据 + 文本索引 + 向量 | 约 500MB-1GB | ✅ 节省 90% 存储<br>✅ 同步速度快<br>✅ 维护简单 |

**向量索引规模预估**（性能规划关键）：

| 阶段 | 时间 | 文档数 | 平均长度 | Embedding 数 | 索引体积 | 每日增量 | 预计 QPS |
|------|------|-------|---------|------------|---------|---------|---------|
| **MVP** | Week 1 | 1,000 | 3,000字 | 150万向量 | 800MB | 20-50 | 5-10 |
| **Month 3** | 3个月 | 5,000 | 3,500字 | 875万向量 | 4.2GB | 50-100 | 20-30 |
| **Month 6** | 6个月 | 10,000 | 4,000字 | 2000万向量 | 9.6GB | 80-150 | 40-60 |
| **Year 1** | 12个月 | 20,000 | 4,500字 | 4500万向量 | 21.6GB | 100-200 | 80-100 |

**计算依据**：
- **Embedding 数** = 文档数 × (平均长度 ÷ 200字/chunk) × 1.5（重叠）
- **索引体积** = Embedding 数 × 768维 × 4字节/维 × 1.3（索引开销）
- **每日增量** = 文档数 × 2-3%（预估增长率）
- **预计 QPS** = 活跃用户数 × 0.1（搜索/问答频率）

**性能扩展策略**：

| 文档规模 | 推荐配置 | 扩展方式 | 预期响应时间 |
|---------|---------|---------|-------------|
| **< 5K** | 单节点（16GB 内存） | 垂直扩展 | < 200ms |
| **5K-20K** | 2-3 节点（32GB 内存） | 水平扩展 + 分片 | < 300ms |
| **20K-50K** | 5-8 节点（64GB 内存） | 多分片 + 副本 | < 500ms |
| **> 50K** | 集群（动态扩展） | 按 Site/部门分片 | < 800ms |

**1000+ 并发应对方案**：
1. **缓存层**：
   - 热门查询缓存（Redis，15分钟）
   - 减少 80% 重复检索
2. **读写分离**：
   - 向量检索：只读副本（3-5个）
   - 索引更新：主节点（1个）
3. **负载均衡**：
   - 多个检索节点轮询
   - 自动故障转移
4. **降级策略**：
   - QPS > 阈值时，AI 问答降级为搜索
   - 保证核心搜索功能可用

> 💡 **技术实现细节**请参考：[03-architecture.md - 性能与扩展](./03-architecture.md#性能与扩展)

> 💡 **技术实现细节**请参考：[03-architecture.md - SharePoint 混合架构](./03-architecture.md#sharepoint-混合架构)

#### 2.3.3 文件编辑策略（明确边界）

**编辑能力分层**：

| 文件类型 | 编辑方式 | 多人协作 | 说明 |
|---------|---------|---------|------|
| **Office 文件** | Office Online（M365） | ✅ 原生支持 | 直接调用 M365，无需自研 |
| **PDF** | 仅查看 + 标注 | ❌ | 基础标注功能，Phase 2+ |
| **KB 原生文章** | 自研富文本编辑器 | ✅ 自研协同 | Markdown + WYSIWYG，支持实时协作 |
| **纯文本/代码** | 在线编辑器 | ⚠️ 锁定编辑 | 简单编辑器，避免冲突 |

**MVP 阶段范围（Phase 1）**：
- ✅ Office 文件：调用 M365 在线预览和编辑
- ✅ KB 文章：基础 Markdown 编辑（单人）
- ❌ 实时多人协作：Phase 2
- ❌ 冲突合并：Phase 2

#### 2.3.4 成本对比

**完全自建方案**：
- 初始成本：¥500,000+
- 年度运营：¥200,000+
- 3年总计：¥1,100,000+

**SharePoint 集成方案（推荐）**：
- 初始成本：¥200,000
- 年度运营：¥80,000
- 3年总计：¥440,000
- 💰 **节省：¥660,000 (60%)**

#### 2.3.5 ROI 分析

**投资回报期：7.5 个月**

- 一次性投资：¥204,000
- 年度运营成本：¥110,000
- 预期年度收益：¥500,000
  - 时间节省：¥300,000
  - 培训成本降低：¥80,000
  - 知识流失减少：¥120,000
- **ROI：124%**

> 💡 **技术实现细节**请参考：[03-architecture.md - SharePoint 集成架构](./03-architecture.md#3-sharepoint-集成架构)

---

## 3. 用户角色

### 3.1 角色定义

| 角色 | 职责 | 权限 |
|------|------|------|
| **超级管理员** | 系统配置、全局管理 | 所有权限 |
| **知识管理员** | 知识库管理、内容审核 | 管理知识库、审核内容、配置分类 |
| **知识专家** | 创建和维护高质量内容 | 创建、编辑、发布专业文档 |
| **知识贡献者** | 创建和分享知识 | 创建草稿、提交审核 |
| **普通用户** | 查阅和使用知识 | 浏览、搜索、评论 |
| **访客** | 有限访问公开内容 | 浏览公开文档 |

### 3.2 角色权限矩阵

|  | 查看 | 搜索 | 创建 | 编辑 | 删除 | 审核 | 管理 |
|--|------|------|------|------|------|------|------|
| 超级管理员 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知识管理员 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知识专家 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ |
| 知识贡献者 | ✅ | ✅ | ✅ | 自己 | 自己 | ❌ | ❌ |
| 普通用户 | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| 访客 | 公开 | 公开 | ❌ | ❌ | ❌ | ❌ | ❌ |

---

## 4. 功能需求

### 4.1 文档管理

#### 4.1.1 文件访问与管理

**访问模式**（基于 SharePoint 混合架构）：

```
用户操作流程：
┌─────────────────────────────────────────────────────────┐
│  1. 用户在知识库搜索/浏览                                 │
│     ↓                                                   │
│  2. 知识库返回搜索结果（基于本地索引）                     │
│     - 显示：标题、摘要、作者、时间、标签                   │
│     - 来源：SharePoint 元数据 + 索引                     │
│     ↓                                                   │
│  3. 用户点击文档标题/预览                                 │
│     ↓                                                   │
│  4. 跳转到 SharePoint/Office Online                     │
│     - 在线预览（无需下载）                                │
│     - 在线编辑（Office Online）                          │
│     - 下载文件                                           │
│     ↓                                                   │
│  5. 用户操作完成，回到知识库继续搜索                       │
└─────────────────────────────────────────────────────────┘
```

**基础功能**：
- ✅ 文档列表展示（基于 KB 索引）
- ✅ 搜索和筛选（基于 KB 索引）
- ✅ 在线预览（跳转 SharePoint/Office Online）
- ✅ 文件下载（从 SharePoint 下载）
- ✅ 元数据管理（标题、标签、分类等，双向同步）
- ✅ 快捷访问（收藏、最近查看，KB 本地存储）

**支持的文件格式**：
- 📄 **Office 文件**：Word、Excel、PPT（调用 Office Online 预览/编辑）
- 📋 **PDF**：在线预览（SharePoint 原生能力）
- 📝 **文本文件**：Markdown、TXT、代码文件
- 🖼️ **图片**：JPG、PNG、GIF、SVG
- 🎥 **视频**：MP4、AVI（SharePoint 原生播放器）

**高级功能**：
- ⚠️ OCR 文字识别（图片转文字）- Phase 3+ 或集成外部服务
- ⚠️ 视频转文字（自动生成字幕）- Phase 3+ 或集成 Azure Cognitive Services
- ⚠️ 音频转文字 - Phase 3+ 或集成外部服务
- ⚠️ 文件格式转换（Word → PDF 等）- Phase 3+ 或集成外部服务

> 💡 **说明**：文件本体存储在 SharePoint，知识库只存储元数据和索引。OCR/音视频转写是大工程量能力，建议作为**可插拔平台能力**或**外部服务集成**（Azure Cognitive Services、AWS Transcribe 等），不作为 MVP 必做项。

#### 4.1.2 文件夹导航

**文件夹结构**（映射 SharePoint）：

```
知识库根目录（映射 SharePoint Sites）
├── 📁 产品文档（Site: Product Docs）
│   ├── 📁 PRD
│   ├── 📁 设计稿
│   └── 📁 用户手册
├── 📁 技术文档（Site: Tech Docs）
│   ├── 📁 架构设计
│   ├── 📁 API 文档
│   └── 📁 运维手册
├── 📁 培训资料（Site: Training）
│   ├── 📁 新员工培训
│   └── 📁 技能提升
└── 📁 制度规范（Site: Policies）
    ├── 📁 公司制度
    └── 📁 流程规范
```

**功能清单**：
- ✅ 文件夹树形导航（基于 SharePoint 文件夹结构）
- ✅ 面包屑导航
- ✅ 文件夹权限显示（继承自 SharePoint）
- ✅ 文件夹收藏和快捷访问（KB 本地存储）
- ⚠️ 文件夹创建/移动/删除：跳转到 SharePoint 操作

> 💡 **说明**：文件夹结构由 SharePoint 管理，知识库只读映射。用户需要在 SharePoint 中进行文件夹管理操作。

#### 4.1.3 版本与权威性管理

**知识库的职责**：只关注**最新、最可信**的内容

| 知识库职责 | 说明 | 实现方式 |
|-----------|------|----------|
| **最新版本索引** | 只索引和检索最新版本内容 | 从 SharePoint/文档编辑引擎获取最新版本 |
| **权威性标记** | 标记文档的权威级别和生命周期状态 | DocAuthorityLevel + DocLifecycleStatus |
| **来源追溯** | 记录文档来源和最后更新信息 | 版本号 + 作者 + 时间戳 |
| **更新通知** | 文档更新时重新索引 | Webhook 监听更新事件 |

**版本控制职责划分**：

| 功能 | 负责模块 | 知识库的角色 |
|------|---------|------------|
| **版本历史管理** | SharePoint / 文档编辑引擎 | ❌ 不负责 |
| **版本对比** | SharePoint / 文档编辑引擎 | ❌ 不负责 |
| **版本回滚** | SharePoint / 文档编辑引擎 | ❌ 不负责 |
| **最新版本索引** | 知识库 | ✅ 负责 |
| **版本号展示** | 知识库 | ✅ 只展示当前版本号 |

**索引更新流程**：
```
文档版本变更（SharePoint/编辑引擎）
  ↓ Webhook 通知
知识库接收通知
  ↓
1. 获取最新版本内容
2. 提取文本和元数据
3. 更新全文索引
4. 更新向量嵌入
5. 更新权威性标记
  ↓
用户搜索/问答时只看到最新版本
```

> 💡 **设计原则**：
> - **知识库**：聚焦知识检索和智能问答，只关注"最新、最可信"的内容
> - **版本控制**：由 SharePoint（外部文件）或文档编辑引擎（KB 原生文章）负责
> - **用户需要查看历史版本**：跳转到 SharePoint 或文档编辑引擎的版本管理功能

**相关模块**：
- [文档编辑引擎 - 版本管理](../document-editor/01-prd.md#版本管理) - KB 原生文章的版本控制
- [SharePoint 版本历史](./03-architecture.md#sharepoint-版本管理) - 外部文件的版本控制

#### 4.1.4 文档编辑能力（KB 原生文章）

**适用场景**：仅用于知识库原生创建的文章，SharePoint 文件使用 Office Online 编辑

**编辑器功能**：
- ✅ 基于 Outline 编辑器能力（ProseMirror）
- ✅ Markdown 导入/导出
- ✅ WYSIWYG 可视化编辑（块级能力）
- ✅ 代码高亮（支持 100+ 语言）
- ✅ 数学公式（LaTeX）
- ✅ 表格、列表、引用
- ✅ 图片、视频嵌入
- ✅ Mermaid 流程图
- ✅ 思维导图
- ✅ 文件附件（存储在 SharePoint）

**知识库特有插件**：
- ✅ 术语表自动链接插件
- ✅ AI 写作助手插件
- ✅ 智能推荐插件

**协作编辑**（由文档编辑引擎提供）：
- ⚠️ 实时多人在线编辑 - **Phase 2**（仅限 KB 原生文章）
- ⚠️ 显示其他用户光标位置 - **Phase 2**

> 💡 **架构说明**：富文本编辑能力已从知识库模块中剥离，成为独立的**文档编辑引擎模块**，以支持全系统的文档编辑需求（表单、公告、帮助文档等）。知识库通过插件机制扩展编辑器功能（如术语表自动链接）。
- ⚠️ 编辑冲突自动合并 - **Phase 2**
- ✅ 锁定编辑（避免冲突）- **Phase 1**（简单锁机制）

**存储策略**：
- KB 原生文章：存储在 KB 数据库
- 内容格式：ProseMirror 文档 JSON（序列化为字符串）
- Markdown：用于导入/导出或显示（非主存储格式）
- 附件文件：上传到 SharePoint 指定库
- 图片：上传到 SharePoint 图片库
- 版本历史：由文档编辑引擎管理

> 💡 **说明**：
> - **SharePoint 文件**：使用 Office Online 编辑，支持 M365 原生多人协作
> - **KB 原生文章**：使用文档编辑引擎，Phase 1 单人编辑，Phase 2 支持实时协作
> - **模块关系**：知识库（业务逻辑）→ 文档编辑引擎（编辑能力）→ 基础设施（存储）

### 4.2 分类与组织

#### 4.2.1 标签系统

**功能定位**：标签是知识库的核心组织方式，通过灵活的标签体系提升搜索效率和内容发现能力。

**标签属性**：

| 属性类型 | 说明 | 示例 |
|---------|------|------|
| **基本信息** | 名称、显示名称、颜色、图标 | "React", 红色, ⚛️ |
| **分类** | 部门、主题、技术、状态、级别、优先级、类型 | 技术标签 |
| **层级** | 支持父子标签关系 | 前端 → React → Hooks |
| **同义词** | 别名支持 | "DB" = "数据库" |
| **统计** | 使用次数、关联文档数、热度 | 使用 156 次 |
| **AI 增强** | AI 自动生成、智能推荐 | 根据内容自动建议 |
| **权限** | 公开/内部/私有，部门限制 | 仅技术部门可用 |

**预设标签体系**：

```
标签体系:
├── 部门标签 (department)
│   ├── 产品
│   ├── 技术
│   │   ├── 前端
│   │   ├── 后端
│   │   └── 运维
│   ├── 运营
│   ├── 市场
│   └── 人力
├── 主题标签 (topic)
│   ├── 业务流程
│   ├── 技术方案
│   ├── 最佳实践
│   ├── 问题解决
│   └── 经验分享
├── 技术标签 (technology)
│   ├── React
│   ├── NestJS
│   ├── PostgreSQL
│   ├── Docker
│   └── AWS
├── 状态标签 (status)
│   ├── 草稿
│   ├── 审核中
│   ├── 已发布
│   ├── 需更新
│   └── 已归档
├── 级别标签 (level)
│   ├── 入门
│   ├── 进阶
│   └── 专家
├── 类型标签 (type)
│   ├── 教程 (Tutorial)
│   ├── 指南 (Guide)
│   ├── 参考 (Reference)
│   ├── FAQ
│   └── 案例 (Case Study)
└── 优先级标签 (priority)
    ├── 必读
    ├── 重要
    └── 可选
```

**核心功能**：
- **多标签支持**：每个文档可关联多个标签，记录添加者和时间，区分人工和 AI 标签
- **层级结构**：支持父子标签关系，便于组织和导航
- **别名同义词**：支持多个别名，搜索任何别名都能找到相关文档
- **AI 自动标注**：AI 分析文档并自动建议标签（关键词提取、实体识别、主题分类）
- **智能推荐**：基于频率、关联、AI 分析、协同过滤等多种策略推荐标签
- **搜索增强**：支持布尔搜索、模糊搜索、层级搜索
- **热度趋势**：统计周/月增长率、使用趋势、热门标签、上升/下降标签
- **标签云可视化**：直观展示标签使用情况和热度
- **管理功能**：创建、编辑、合并、删除、批量操作、审核
- **使用统计**：文档数量、浏览量、平均评分、主要贡献者、使用趋势、相关标签

> 💡 详细接口定义见 [03-architecture.md - 标签系统接口](./03-architecture.md#标签系统接口)

#### 4.2.2 分类体系

```
知识分类:
├── 一级分类
│   ├── 产品类
│   │   ├── 产品需求
│   │   ├── 产品设计
│   │   └── 产品运营
│   ├── 技术类
│   │   ├── 前端开发
│   │   ├── 后端开发
│   │   └── 运维部署
│   └── 管理类
│       ├── 项目管理
│       ├── 团队管理
│       └── 制度流程
```

### 4.3 搜索功能

#### 4.3.1 基础搜索

| 搜索类型 | 说明 | 示例 |
|----------|------|------|
| **关键词搜索** | 全文匹配 | "数据库设计" |
| **标题搜索** | 仅搜索标题 | `title:架构` |
| **标签搜索** | 按标签筛选 | `tag:技术` |
| **作者搜索** | 按作者筛选 | `author:张三` |
| **日期搜索** | 按时间范围 | `date:2024-01-01~2024-12-31` |
| **文件类型** | 按文件类型 | `type:pdf` |

#### 4.3.2 高级搜索

**搜索运算符**：
```
AND: 数据库 AND 设计
OR: MySQL OR PostgreSQL
NOT: 数据库 NOT MySQL
"": "数据库设计" (精确匹配)
*: 数据* (通配符)
```

**智能过滤**：
- 按部门筛选
- 按文档状态筛选
- 按评分筛选
- 按访问热度筛选
- 按更新时间排序

#### 4.3.3 去重检测

**目标**：避免重复内容创建，提高知识库质量

**检测指标**：
- 标题相似度（0-1）
- 内容相似度（0-1）
- 语义相似度（0-1）

**重复类型**：完全重复 / 近似重复 / 相关内容

**建议操作**：合并 / 关联 / 更新已有 / 创建新文档

**功能特性**：

| 功能 | 说明 |
|------|------|
| **创建前检测** | 用户创建文档时，AI 自动搜索相似内容 |
| **相似度提醒** | 发现相似度 > 80% 的文档时提示用户 |
| **智能合并** | 建议合并重复内容，保留版本历史 |
| **重复报告** | 定期生成重复内容报告供管理员审查 |
| **自动去重** | 管理员批准后自动合并或删除重复文档 |

**去重流程**：
```mermaid
graph LR
    A[用户创建文档] --> B{AI 检测相似内容}
    B -->|无相似| C[直接创建]
    B -->|有相似| D[显示相似文档]
    D --> E{用户选择}
    E -->|更新已有| F[编辑已有文档]
    E -->|仍然创建| G[创建并关联]
    E -->|取消| H[取消创建]
```

#### 4.3.4 贡献者活动追踪

**目的**：激励知识分享，识别关键贡献者

**贡献者指标**：

| 维度 | 指标 |
|------|------|
| **贡献统计** | 创建文档数、更新文档数、评论数、获赞数、专家回答数 |
| **影响力** | 内容浏览量、平均评分、被引用次数、关注者数 |
| **活跃度** | 最后活跃日期、活跃天数、连续贡献天数、周贡献数 |
| **成就** | 徽章、等级（新手/贡献者/专家/大师）|

**激励机制**：
- 🏆 **成就徽章**：首次发布、百篇作者、最受欢迎等
- 📈 **等级系统**：Novice → Contributor → Expert → Master
- 🎁 **积分奖励**：可兑换礼品或特权
- 🌟 **专家认证**：达到一定标准自动获得专家身份
- 📊 **个人仪表板**：展示贡献数据和成长轨迹

#### 4.3.5 搜索结果片段与命中高亮（新增）

**目标**：降低用户在结果列表中的二次判断成本，提升“是否相关”的首屏可读性。

**规则**：
- 搜索结果的“内容”栏必须展示与当前查询词相关的片段，不可仅展示固定开头摘要。
- 结果标题与内容片段中，命中查询词必须进行视觉高亮。
- 当结果内容较长时，优先截取命中词附近上下文（前后文片段），必要时使用省略号表示裁剪。
- 高亮仅用于展示层，不改变检索排序与相关度计算逻辑。

#### 4.3.6 搜索结果主次动作分离（新增）

**目标**：降低误触与跳转打断，提升搜索结果的可读性与可控性。

**规则**：
- 搜索结果卡片中的“标题+内容+元信息”区域作为主动作，点击后直接进入原文。
- 左侧主动作区域在可交互状态下必须提供明确的点击反馈（含手型光标与 hover/focus 状态）。
- 右侧按钮统一为“预览”，用于在当前页内查看结果内容，不触发页面跳转。
- 相关度需在每条搜索结果中始终可见，并以小号弱化标签展示在“预览”按钮左侧，避免干扰主阅读路径。
- 预览需兼容不同文件类型（如站内文章、Office、PDF、通用文档）；按类型选择最合适的预览方式。
- 预览内容应尽量展示完整正文；无法获取全文时，至少展示可用的最大内容并提供打开原文入口。
- 预览中若存在与查询词相关文本，需复用命中高亮规则进行高亮展示。

#### 4.3.7 输入联想建议（新增）

**目标**：降低用户输入与试错成本，提升“输入中即可收敛关键词”的效率。

**规则**：
- 搜索框在用户输入过程中应展示联想建议，不要求用户先提交完整查询。
- 联想建议与正式语义搜索分层：
  - 联想建议：使用轻量候选召回（历史查询词、热门查询词、标题词）。
  - 正式搜索：仅在用户确认（回车/点击搜索）后调用语义检索。
- 联想建议默认最多展示 8 条，按“文档与文章标题优先，其次个人最近搜索，最后热门搜索”排序。
- 输入长度小于 2 个字符时，不触发联想请求；输入为空时关闭建议面板。
- 联想接口需支持防抖与并发中断（前端去抖 + 仅消费最新请求结果）。
- 联想面板需支持键盘交互（↑/↓ 切换、Enter 选中、Esc 关闭）与无障碍语义（combobox/listbox/option）。
- 选中建议后应回填输入框，并进入与手动输入一致的正式搜索流程。
- 最近搜索应支持用户自助管理：
  - 支持删除单条最近搜索词；
  - 支持一键清空当前用户全部最近搜索；
  - 仅作用于当前用户自己的搜索历史，不影响其他用户与热门搜索统计。

#### 4.3.8 文件夹结果展示（新增）

**目标**：支持“按文件夹名搜索”，并在文件结果下方展示可直接打开的 SharePoint 文件夹结果，帮助用户先定位目录再进入文档。

**规则**：
- 搜索结果除文档/文章外，需支持返回 SharePoint 文件夹结果（来源于文件夹元数据索引）。
- 结果区域分组固定为：
  - 文件结果（文档 + 文章）在上；
  - 文件夹结果在下。
- 文件夹卡片仅展示以下字段：
  - 文件夹名；
  - 文件夹路径；
  - 更新时间。
- 文件夹卡片整体可点击，点击后直接新标签页打开 SharePoint 文件夹链接；不单独提供“打开”按钮。
- 文件夹结果不参与“预览”面板流程。

### 4.4 协作功能

> 💡 **模块依赖说明**：协作功能依赖多个基础模块，知识库主要负责业务编排和知识管理逻辑。

#### 4.4.1 评论与讨论

**功能说明**：文档评论和讨论功能

**模块集成**：
- **评论系统**：使用通用评论组件（可复用于工单、公告等）
- **通知系统**：@提及、回复通知 → 调用 [通知引擎模块](../notification/)
- **富文本支持**：评论内容支持富文本 → 调用 [文档编辑引擎](../document-editor/) 的简化编辑器

**知识库特有逻辑**：
- ✅ 关联文档上下文
- ✅ 专家认证显示
- ✅ 高质量评论推荐
- ✅ 评论内容索引（用于搜索）

**功能清单**：
- ✅ 评论文档（文档上下文关联）
- ✅ 嵌套回复（多层回复）
- ✅ @提及用户（通知引擎）
- ✅ 点赞评论
- ✅ 富文本评论（编辑引擎 minimal 工具栏）

> 💡 **设计原则**：评论是通用能力，知识库只负责文档关联和业务规则。

#### 4.4.2 知识评分与反馈

**功能说明**：文档质量评价和反馈收集

**模块集成**：
- **反馈系统**：使用 [反馈系统模块](../feedback/)
- **评分组件**：通用评分组件（1-5星）
- **数据分析**：反馈数据用于知识库质量度量

**知识库特有逻辑**：
- ✅ 评分影响文档排序
- ✅ 评分纳入权威性计算
- ✅ 低分文档自动提醒作者
- ✅ 评分趋势分析

**评分维度**：
- ⭐ 内容准确性
- ⭐ 实用性
- ⭐ 清晰度
- ⭐ 完整性

**反馈类型**（复用反馈系统）：
- **文档级反馈** → [反馈系统](../feedback/) - 文档类型
- **系统级反馈** → [反馈系统](../feedback/) - 系统类型
- **AI 问答反馈** → 知识库自有（AI 特定）

> 💡 详细接口定义见 [03-architecture.md - 反馈与支持接口](./03-architecture.md#反馈与支持接口)

#### 4.4.3 FAQ 知识中心

**功能说明**：常见问题管理和展示

**实现方式**：
- **FAQ 管理**：作为知识库的特殊文档类型（DocType = FAQ）
- **FAQ 展示**：知识库首页专区展示
- **FAQ 推荐**：基于用户搜索历史智能推荐

**FAQ 来源**：
- 📊 **数据驱动**：从用户搜索和 AI 问答日志中自动生成
- 👥 **用户贡献**：用户可以提交 FAQ
- 🤖 **AI 生成**：AI 分析常见问题自动创建
- ✍️ **人工编写**：知识管理员精心编写

#### 4.4.5 实时帮助聊天

**帮助聊天功能**：
- **AI 助手**：自动回复、智能转人工、置信度控制
- **人工支持**：在线状态、等待时间、队列管理
- **高级功能**：文件分享、屏幕共享、协同浏览、历史记录

> 💡 详细接口定义见 [03-architecture.md - 反馈与支持接口](./03-architecture.md#反馈与支持接口)

#### 4.4.6 专家认证

**认证流程**：
```mermaid
graph LR
    A[用户申请] --> B[管理员审核]
    B --> C[专家认证]
    C --> D[显示专家标识]
    D --> E[优先展示内容]
```

**专家权益**：
- ✅ 专家标识（专家徽章）
- ✅ 内容优先展示
- ✅ 更高权重推荐
- ✅ 专家问答通道

### 4.5 权限管理

> ⚠️ **范围说明**：MVP 阶段仅做站点级访问控制（应用权限），不做用户级权限过滤与 ACL 映射；用户级权限过滤从 Phase 2 起补齐。

#### 4.5.1 权限模型

**权限类型**：
- 查看 (READ)
- 搜索 (SEARCH)
- 创建 (CREATE)
- 编辑 (EDIT)
- 删除 (DELETE)
- 发布 (PUBLISH)
- 审核 (REVIEW)
- 管理 (ADMIN)

> 💡 详细接口定义见 [03-architecture.md - 权限与审批接口](./03-architecture.md#权限与审批接口)

#### 4.5.2 权限级别

| 级别 | 说明 | 适用场景 |
|------|------|----------|
| **私有** | 仅创建者可见 | 个人草稿 |
| **部门** | 部门成员可见 | 部门文档 |
| **公司** | 全员可见 | 公开知识 |
| **公开** | 包括访客可见 | 对外公开 |
| **自定义** | 指定用户/角色 | 特殊需求 |

#### 4.5.3 敏感内容控制

**敏感内容控制**：
- 级别：公开/内部/机密/绝密
- 水印保护、禁止复制、禁止下载
- 访问过期时间、需要审批

> 💡 详细接口定义见 [03-architecture.md - 权限与审批接口](./03-architecture.md#权限与审批接口)

### 4.6 工作流集成

> ⚠️ **范围说明**：本章节为 Phase 3+ 目标能力，MVP 不包含审批流程。

#### 4.6.1 简化的审批流程

**设计原则**：
- ✅ **快速高效**：减少审批层级，提高效率
- ✅ **自动化**：智能路由，自动分配审批人
- ✅ **透明可见**：实时进度追踪
- ✅ **及时提醒**：超时自动升级

**审批流程**：
```mermaid
graph TB
    A[创建文档] --> B{需要审批?}
    B -->|否-公开文档| C[直接发布]
    B -->|是-敏感内容| D[自动路由审批人]
    D --> E[部门审批]
    E --> F{48小时内审批?}
    F -->|是| G{通过?}
    F -->|否-超时| H[自动升级+通知]
    H --> I[发送页面提醒]
    I --> J[上级管理员审批]
    G -->|通过| K[发布]
    G -->|拒绝| L[退回修改+说明理由]
    L --> A
```

**审批类型与 SLA**：

| 文档类型 | 审批级别 | SLA | 超时处理 | 允许自动通过 |
|---------|---------|-----|---------|------------|
| **公开文档** | 无需审批 | 即时 | N/A | ✅ 默认 |
| **内部文档（低风险）** | 1级（部门主管） | 24小时 | ⚠️ 条件自动通过* | ✅ 有 Owner 且非敏感 |
| **敏感文档** | 2级（部门+安全） | 48小时 | 升级+页面通知 | ❌ 必须人工审批 |
| **机密文档** | 3级（多部门） | 72小时 | 必须审批 | ❌ 永不自动通过 |

**自动通过前提条件**：
- ✅ 文档类型：内部文档（非敏感、非机密）
- ✅ 有明确 Owner（责任人）
- ✅ 不包含敏感关键词（如：密码、密钥、财务数据等）
- ✅ 文件大小 < 10MB（排除大规模数据泄露风险）
- ✅ 无历史违规记录

**审计要求**：
- 所有自动通过的文档记录完整审计日志
- 定期（每月）生成自动通过报告供管理员审查
- 支持事后追溯和回滚

**48 小时审批规则**：
- 默认 48 小时超时
- 36 小时预警
- 分级提醒：24h 邮件 → 36h 邮件+微信 → 48h 全通道+页面
- 升级机制：48h 通知上级 → 72h 自动通过

**智能审批路由**：
- **自动分配**：按部门/内容类型/标签/敏感度
- **审批人池**：主要/备用/委托审批人
- **并行审批**：支持多人并行，可设置通过阈值

> 💡 详细接口定义见 [03-architecture.md - 权限与审批接口](./03-architecture.md#权限与审批接口)

#### 4.6.2 变更审批

**需要审批的操作**：
- 删除重要文档
- 修改已发布文档
- 更改权限设置
- 归档知识库

**快速审批通道**：
- 🚀 **紧急文档**：VIP 通道，2小时 SLA
- ⚡ **小改动**：自动检测，无需审批（如修正错别字）
- 🤖 **AI 预审**：自动检测风险，低风险文档快速通过

---

## 5. AI 智能功能

### 5.1 AI 智能问答

> 💡 **模块依赖说明**：AI 问答使用通用 AI 服务和反馈系统，知识库负责 RAG 业务逻辑。

#### 5.1.1 功能描述

**用户通过自然语言提问，AI 基于知识库内容给出准确答案。**

**模块集成**：

| 能力 | 负责模块 | 说明 |
|------|---------|------|
| **LLM 调用** | AI 服务模块（基础设施）| OpenAI/Claude API 封装 |
| **向量检索** | 知识库模块（本模块）| RAG 核心能力 |
| **权限过滤** | 知识库模块（本模块）| 基于用户权限的文档过滤 |
| **问答反馈** | [反馈系统模块](../feedback/) | 问答满意度收集 |
| **使用统计** | 知识库模块（本模块）| 问答日志和分析 |

**AI 问答接口**：
- **输入**：问题、用户上下文、过滤条件（部门/标签/时间范围）
- **输出**：答案、置信度、来源文档、相关问题建议
- **元数据**：处理时间、使用模型、Token 消耗
- **反馈集成**：调用反馈系统收集满意度

**引用粒度与权限过滤**（验收条款）：

| 维度 | MVP 要求 | 验收标准 |
|------|---------|---------|
| **引用信息完整性** | 必须包含 | • 文档标题 + SharePoint 链接<br>• 文档片段（snippet，100-200字）<br>• 版本号 + 最后更新时间<br>• 作者信息 |
| **权限过滤时机** | **Phase 2+ 才启用** | • MVP 阶段不做用户级权限过滤，仅站点级访问控制<br>• Phase 2 起在向量检索前应用权限过滤 |
| **引用可追溯性** | 必须可点击 | • 每个引用都是可点击的 SharePoint 链接<br>• 点击后跳转到文档（如有权限）<br>• 无权限时显示友好提示 |
| **片段高亮** | Phase 2+ | • 跳转后高亮显示引用片段<br>• URL 包含锚点或段落 ID |

**权限过滤流程（Phase 2+）**：

```
用户提问 → AI 问答引擎
  ↓
1. 获取用户权限列表（从 KB RBAC）
  ↓
2. 向量检索（仅在有权限的文档集合中检索）
  ↓
3. 重排序（Rerank）
  ↓
4. 上下文构建（提取文档片段）
  ↓
5. LLM 生成答案
  ↓
6. 答案增强（添加引用信息）
  ↓
返回答案 + 引用列表
```

**引用信息示例**：

```json
{
  "answer": "根据公司财务制度，报销流程包括...",
  "sources": [
    {
      "title": "财务管理制度 v2.3",
      "url": "https://sharepoint.company.com/sites/finance/documents/policy_v2.3.docx",
      "snippet": "...报销流程包括：1. 提交报销申请 2. 部门主管审批 3. 财务审核...",
      "version": "2.3",
      "lastModified": "2024-10-15T10:30:00Z",
      "author": "财务部",
      "confidence": 0.95
    }
  ],
  "hasPermission": true
}
```

**权限校验**：
- ⚠️ MVP：不做用户级检索过滤，仅依赖站点范围限制
- ✅ Phase 2+：检索前过滤 + 返回时校验 + SharePoint 点击校验

> 💡 详细接口定义见 [03-architecture.md - AI 功能接口](./03-architecture.md#ai-功能接口)

#### 5.1.2 使用场景

| 场景 | 示例问题 | AI 功能 |
|------|----------|---------|
| **快速查询** | "公司的报销流程是什么？" | 从相关文档中提取答案 |
| **对比分析** | "MySQL 和 PostgreSQL 的区别？" | 多文档对比，总结差异 |
| **最佳实践** | "如何做好产品需求评审？" | 汇总多个案例，提炼要点 |
| **故障排查** | "服务器 500 错误怎么处理？" | 关联故障文档，给出排查步骤 |
| **学习引导** | "我想学习 React，有什么推荐？" | 推荐学习路径和相关文档 |

#### 5.1.3 答案权威规则（核心差异化能力）

**当多文档涉及同一主题时，AI 回答的来源优先级**：

**权威来源优先级（从高到低）**：
1. ⭐⭐⭐ **官方政策/SOP**（标记为"官方文档"）
2. ⭐⭐ **专家认证内容**（由认证专家创建或审核）
3. ⭐⭐ **已发布知识**（正式发布状态）
4. ⭐ **草稿/进行中**（仅当无其他来源时参考）

**版本优先级**：
- ✅ **最新版本优先**：同等权威级别下，最新版本 > 历史版本
- ✅ **生效状态优先**：生效中 > 计划生效 > 已归档

**文档类型加权**：

| 文档类型 | 权重系数 | 说明 |
|---------|---------|------|
| **政策/制度** | 1.0 | 最高权威 |
| **官方手册/指南** | 0.9 | 官方指导 |
| **专家博客/最佳实践** | 0.7 | 经验总结 |
| **FAQ/问答** | 0.6 | 常见问题 |
| **一般文档** | 0.5 | 基础参考 |
| **个人笔记/草稿** | 0.3 | 个人经验 |

**答案生成策略**：
- **单一权威来源**：直接引用并标注来源
- **多个同等权威来源**：综合引用，标注所有来源
- **存在冲突**：明确告知冲突，展示不同来源观点，建议联系专家
- **无权威来源**：明确说明"仅供参考"，建议验证

**示例输出**：
```
问题：公司的报销流程是什么？

答案：
根据【官方制度】《财务管理制度 v2.3》（2024-10-15 发布）：
报销流程包括...

💡 相关参考：
• 《报销操作指南》- 详细步骤说明
• 《常见报销问题FAQ》- 常见疑问解答

⚠️ 注意：本答案来自官方制度文档，如有疑问请联系财务部 @张三
```

#### 5.1.4 技术实现

**RAG 架构**：
```
用户问题
  ↓
[1] 问题理解（意图识别）
  ↓
[2] 向量检索（语义搜索）
  ↓
[3] 重排序（Rerank）
  ↓
[4] 上下文构建
  ↓
[5] LLM 生成答案
  ↓
[6] 答案增强（引用标注）
  ↓
答案返回
```

### 5.2 智能语义搜索

**功能描述**：理解用户搜索意图，返回最相关的文档，即使关键词不完全匹配。

**示例**：
```
用户搜索: "怎么提高网站速度"

传统搜索: 只找包含"网站速度"的文档
语义搜索: 找到：
  - "前端性能优化指南"
  - "CDN 加速配置"
  - "数据库查询优化"
  - "缓存策略最佳实践"
```

**搜索增强**：

| 增强功能 | 说明 |
|----------|------|
| **同义词扩展** | "购买" → "采购", "买" |
| **拼写纠正** | "数据苦" → "数据库" |
| **语言理解** | "最新的文档" → 按时间排序 |
| **多模态搜索** | 支持图片搜索文档 |
| **个性化** | 根据用户历史优化结果 |

### 5.3 自动摘要

**文档摘要功能**：
- 一句话总结（50字内）
- 详细摘要（200-300字）
- 关键要点（3-5个）
- 自动生成目录
- 关键词提取

**多种摘要模式**：
- **极简模式**：一句话总结
- **标准模式**：200 字摘要 + 关键要点
- **详细模式**：章节摘要 + 目录结构

> 💡 详细接口定义见 [03-architecture.md - AI 功能接口](./03-architecture.md#ai-功能接口)

### 5.4 智能推荐

#### 5.4.1 推荐类型

| 推荐类型 | 说明 | 算法 |
|----------|------|------|
| **相关文档** | 阅读当前文档后推荐相关内容 | 内容相似度 + 协同过滤 |
| **热门文档** | 推荐访问量高的文档 | 热度算法 + 时间衰减 |
| **个性化推荐** | 基于用户兴趣推荐 | 用户画像 + 协同过滤 |
| **新人推荐** | 新员工入职必读 | 标签匹配 + 人工筛选 |
| **岗位推荐** | 根据岗位推荐相关知识 | 岗位知识图谱 |

#### 5.4.2 推荐策略

- **基于内容**：向量相似度、关键词匹配、分类匹配
- **基于协同**：相似用户行为、共同查看/编辑
- **基于规则**：标签匹配、部门/角色匹配

> 💡 详细接口定义见 [03-architecture.md - AI 功能接口](./03-architecture.md#ai-功能接口)

### 5.5 智能标注

**AI 自动标注**：
- 内容分析标签
- 实体识别（人名、组织、地点、技术）
- 主题模型分类
- 情感分析

> 💡 详细接口定义见 [03-architecture.md - AI 功能接口](./03-architecture.md#ai-功能接口)

### 5.6 智能写作助手

| 功能 | 说明 |
|------|------|
| **续写建议** | AI 根据上下文建议下一句 |
| **内容扩展** | 将简短内容扩展成完整段落 |
| **语言优化** | 优化表达，提高可读性 |
| **格式检查** | 检查格式规范，自动修正 |
| **重复检测** | 检测重复内容，避免冗余 |
| **引用建议** | 推荐相关文档引用 |

### 5.7 知识图谱

**概念关系**：
```mermaid
graph TD
    A[数据库] --> B[MySQL]
    A --> C[PostgreSQL]
    A --> D[MongoDB]
    B --> E[索引优化]
    B --> F[备份恢复]
    C --> G[JSON 支持]
    E --> H[查询性能]
```

**功能**：
- ✅ 自动构建知识图谱
- ✅ 可视化展示概念关系
- ✅ 知识路径查询
- ✅ 知识缺口发现

### 5.8 智能问答机器人

**集成方式**：

| 集成方式 | 说明 |
|----------|------|
| **网页聊天窗** | 嵌入网站右下角 |
| **企业微信/钉钉** | 企业内部通讯工具 |
| **Slack/Teams** | 国际化团队 |
| **API 接口** | 第三方系统集成 |

**对话能力**：
- **基础问答**：单次问答
- **多轮对话**：上下文理解、追问澄清、连续对话
- **任务执行**：搜索、摘要、文档对比

> 💡 详细接口定义见 [03-architecture.md - AI 功能接口](./03-architecture.md#ai-功能接口)

---

## 6. 术语表与定义管理

### 6.1 功能概述

**企业术语库（Glossary）**：集中管理企业专业术语和定义，在文档中自动识别和链接术语，类似 Confluence 的术语链接功能。

### 6.2 核心功能

#### 6.2.1 术语识别与管理

**术语实体**：
- 术语名称、别名、定义、分类
- 相关术语、相关文档、使用示例
- 来源（人工/AI建议/使用检测）
- 使用统计、热度
- 多语言支持
- 负责人、审核人、状态

> 💡 详细接口定义见 [03-architecture.md - 术语表接口](./03-architecture.md#术语表接口)

#### 6.2.2 智能术语识别

**AI 驱动的术语发现**：
- **频率分析**：出现次数阈值、使用上下文、置信度
- **写作标记**：用户主动标记、AI 建议、需要审核
- **上下文分析**：技术术语、业务术语、缩写、专有名词
- **建议创建**：术语、频率、文档、AI 生成定义、优先级

**术语识别流程**：
```mermaid
graph TB
    A[文档内容] --> B{AI 分析}
    B --> C[高频词汇识别]
    B --> D[上下文分析]
    B --> E[用户标记]
    C --> F[术语候选列表]
    D --> F
    E --> F
    F --> G{是否已存在?}
    G -->|否| H[建议创建术语]
    G -->|是| I[自动链接]
    H --> J[管理员审核]
    J --> K[添加到术语库]
    K --> I
```

#### 6.2.3 文档中的术语链接

**术语自动链接**：
- **配置**：启用/禁用、仅首次出现、大小写敏感、排除代码块
- **样式**：下划线类型、颜色、图标、悬停提示
- **交互**：点击行为（提示/弹窗/侧边栏/新标签）、显示定义/相关术语/相关文档

> 💡 详细接口定义见 [03-architecture.md - 术语表接口](./03-architecture.md#术语表接口)

#### 6.2.4 术语标记工具

**批量术语标记**：
- 批量处理文档和术语
- 自动模式或审核模式
- 处理结果统计（已处理/已链接/已跳过/冲突）

#### 6.2.5 术语使用分析

**术语使用分析**：
- **使用统计**：总出现次数、文档数、作者数、趋势分数、增长率
- **使用分布**：按部门、文档类型、时间段
- **相关性分析**：共现术语、相关主题、常见上下文

#### 6.2.6 术语版本管理

**术语版本管理**：
- 版本号、变更内容（定义/状态）
- 变更原因、审核人、生效日期
- 影响的文档列表、自动通知

### 6.3 术语库集成

| 集成点 | 功能 | 负责模块 |
|-------|------|---------|
| **文档编辑器** | 实时术语建议，自动链接（术语表插件） | [文档编辑引擎](../document-editor/) + 知识库 |
| **搜索系统** | 术语扩展搜索，同义词匹配 | 知识库（本模块）|
| **AI 问答** | 术语上下文增强，定义引用 | 知识库（本模块）|
| **审批流程** | 新术语审批，变更审批 | [审批引擎](../approval/) |
| **培训系统** | 新员工术语学习，术语测验（可选） | 待规划（Phase 3+）|
| **翻译系统** | 多语言术语对照（可选） | 待规划（Phase 3+）|

---

## 7. 用户体验

### 7.1 页面结构

```
知识库首页
├── 顶部导航
│   ├── 搜索框（全局搜索）
│   ├── AI 问答（快捷入口）
│   └── 新建按钮
├── 左侧边栏
│   ├── 知识库列表
│   ├── 文件夹树
│   ├── 我的收藏
│   ├── 最近查看
│   └── 回收站
├── 主内容区
│   ├── 面包屑导航
│   ├── 筛选和排序
│   └── 文档列表/网格
└── 右侧边栏（可折叠）
    ├── AI 助手
    ├── 相关推荐
    └── 热门文档
```

### 7.2 响应式设计

| 设备 | 布局 | 特点 |
|------|------|------|
| **桌面端** | 三栏布局 | 完整功能展示 |
| **平板** | 二栏布局 | 可折叠侧边栏 |
| **手机** | 单栏布局 | 底部导航栏 |

> 💡 **技术实现细节**请参考：[03-architecture.md](./03-architecture.md)

---

## 8. 非功能需求

### 8.1 性能要求

| 指标 | 目标 | 测试方法 |
|------|------|----------|
| **页面加载** | < 2s | 首屏时间 |
| **搜索响应** | < 500ms | 平均响应时间 |
| **AI 问答** | < 5s | 包含检索和生成 |
| **文件上传** | > 10MB/s | 100MB 文件 |
| **并发支持** | 1000+ | 压力测试 |

### 8.2 可用性

- ✅ 99.9% 可用性（月度）
- ✅ 24/7 服务监控
- ✅ 自动故障恢复
- ✅ 数据备份（每日）
- ✅ 灾难恢复计划

### 8.3 安全性

| 维度 | 措施 |
|------|------|
| **认证** | SSO + 双因素认证 |
| **授权** | RBAC + 细粒度权限 |
| **数据加密** | 传输 TLS 1.3 + 存储 AES-256 |
| **审计** | 完整操作日志 |
| **防护** | WAF + DDoS 防护 |
| **合规** | GDPR + ISO 27001 |

### 8.4 可扩展性

- ✅ 应用层水平扩展
- ✅ 数据库读写分离
- ✅ 分布式存储支持
- ✅ 高可用集群部署

### 8.6 数据与日志（审计与合规关键）

#### 8.6.1 日志记录策略

**必须记录的日志类型**：

| 日志类型 | 记录内容 | 保存期限 | 访问权限 |
|---------|---------|---------|---------|
| **用户操作日志** | 登录、登出、文档访问、下载、编辑、删除 | 2年 | 管理员 + 审计员 |
| **搜索日志** | 搜索关键词、时间戳、结果数量、用户ID* | 1年 | 管理员（脱敏） |
| **AI 问答日志** | 问题内容*、答案内容*、来源文档、置信度、用户ID* | 1年 | 管理员（脱敏） |
| **审批日志** | 提交、审批、拒绝、升级、自动通过 | 5年 | 管理员 + 审计员 |
| **权限变更日志** | 权限授予、撤销、角色变更 | 5年 | 管理员 + 审计员 |
| **文档生命周期日志** | 创建、发布、归档、删除、恢复 | 永久 | 管理员 |
| **系统错误日志** | 错误堆栈、时间戳、影响范围 | 1年 | 技术团队 |
| **AI 模型调用日志** | 模型名称、Token 消耗、响应时间、成本 | 1年 | 管理员 + 财务 |

**脱敏策略**：
- 用户ID：哈希处理或替换为匿名标识
- 搜索/问答内容：敏感词过滤（密码、身份证、手机号等）
- 文档内容：不记录完整内容，仅记录元数据

#### 8.6.2 数据保留与清理

**数据生命周期**：

| 数据类型 | 热数据（快速访问） | 温数据（归档） | 冷数据（长期存储） | 删除策略 |
|---------|-----------------|--------------|-----------------|---------|
| **文档正文** | 最近 3 个月 | 3-12 个月 | 1年以上 | 根据归档策略 |
| **搜索日志** | 最近 1 个月 | 1-6 个月 | 6-12 个月 | 1年后删除 |
| **AI 问答日志** | 最近 1 个月 | 1-6 个月 | 6-12 个月 | 1年后删除 |
| **审批日志** | 最近 6 个月 | 6个月-2年 | 2-5年 | 5年后归档（不删除） |
| **审计日志** | 最近 1 年 | 1-2年 | 2年以上 | 永久保留 |

#### 8.6.3 日志访问与导出

**访问控制**：
- **实时查看**：仅管理员和审计员
- **报表导出**：需要申请+审批
- **API 访问**：需要 API Key + IP 白名单

**合规报表**：
- 每月自动生成合规报告（用户活动、数据访问、权限变更）
- 支持按部门、按用户、按时间段导出
- 导出记录本身也被审计

#### 8.6.4 成本监控（AI 成本控制）

**AI 成本日志**：
- **每次调用**：记录模型、Token 数、成本
- **每日汇总**：按功能模块（问答、摘要、标注等）汇总
- **每月报告**：成本趋势、异常检测、优化建议

**成本控制策略**：
- 设置每日/每月成本上限
- 超出阈值自动告警
- 支持降级策略（使用更便宜的模型）

> 💡 **技术实现细节**请参考：[03-architecture.md - 日志与审计系统](./03-architecture.md#日志与审计系统)

---

## 9. 实施路线图

> **Phase 边界对齐（2026-01-12）**  
> - **Phase 1 仅包含**：高级搜索（关键词+语义+基础过滤）、AI 问答（RAG+引用+权威优先级）、去重检测提示、简化审批（机密不自动通过+审计）、通知（审批/订阅/失败告警）、列表（最近/已开始/收藏）、基础分析与活跃度、KB 原生文章基础编辑（单人）、术语表基础词条管理（无自动识别/推荐）。  
> - **Phase 2+ 推迟**：评论/讨论/评分/FAQ/反馈、多 人实时协同、自研智能摘要/推荐/标注、术语自动识别与使用分析、知识图谱、帮助聊天、OCR/音视频转写、复杂权限（用户级 ACL 检索过滤、复杂共享链接/外部来宾）、完整标签体系、深度运营仪表板、SSO/企业通讯工具集成、智能审批路由等。

### 9.1 Phase 1: MVP（4-6 周）- 核心闭环

**目标**：交付一条完整的价值闭环："搜得到 → 问得出 → 可引用 → 可控权限 → 可度量"

**技术实现路径（建议）**：

0. **Outline 编辑器试运行（内部）**
   - 嵌入式访问 Outline（自托管）
   - 入口：知识库首页 → Outline 编辑器
   - 验收：可在新标签或嵌入页打开并完成基础编辑
1. **SharePoint 只读接入 + 基础搜索**
   - 访问指定 Site/Library 的文档元数据（标题/作者/时间/链接）
   - 基础关键词搜索（SharePoint 搜索 API 或本地索引）
   - 验收：搜索返回可点击结果，跳转 SharePoint 预览/下载
2. **同步与索引管线（Webhook + 轮询）**
   - 增量同步新增/更新/删除
   - 建立本地索引（元数据 + 全文文本）
   - 验收：内容变更在索引中可见，轮询兜底可补偿
3. **语义搜索 + 向量库**
   - 文本切分、Embedding、向量检索
   - 权限过滤结合延后至 Phase 2+
   - 验收：语义搜索结果相关度明显优于关键词搜索
4. **AI 问答（RAG）+ 引用**
   - 引用包含标题/链接/片段/版本/时间
   - 权威规则（DocAuthorityLevel/DocType）生效
   - 验收：答案可追溯且不越权（站点级范围内）
5. **基础度量与日志**
   - 搜索量、问答量、响应时间、活跃用户
   - 最小审计与脱敏策略落地
   - 验收：可查看基础报表并支持导出

**MVP 核心范围（必做）**：

| 功能模块 | 具体范围 | 验收标准 |
|---------|---------|---------|
| **SharePoint 集成** | • 指定 1-2 个 Site 同步<br>• 增量同步（Webhook + 15分钟轮询）<br>• 权限基础映射（Group→Role） | 可同步文档，权限生效 |
| **文档管理** | • 文档列表/详情<br>• 在线预览（Office Online）<br>• 基础元数据管理 | 可查看 SharePoint 文档 |
| **原生文章（试运行）** | • Outline 嵌入式编辑器<br>• 新标签/嵌入访问 | 可打开并完成基础编辑 |
| **搜索功能** | • 全文搜索<br>• 语义搜索（向量检索）<br>• 基础过滤（时间、作者、类型） | 搜索准确率 > 80% |
| **AI 问答** | • 基础 RAG 问答<br>• 来源引用<br>• 权威规则（3级优先级） | 回答准确率 > 70% |
| **权限管理** | • 站点级访问控制（应用权限）<br>• 用户级权限过滤延后 | 站点范围内可访问 |
| **基础度量** | • 搜索量、问答量<br>• 响应时间<br>• 用户活跃度 | 可查看基础报表 |

**MVP 核心元数据字段**（支持权威规则，不依赖标签系统）：

| 字段名 | 类型 | 说明 | 来源 | 用途 |
|-------|------|------|------|------|
| **DocAuthorityLevel** | 枚举 | 文档权威级别 | SharePoint 自定义字段 | AI 答案权威规则 |
| └─ Official | - | 官方政策/SOP | 管理员标记 | 最高优先级（1.0） |
| └─ Expert | - | 专家认证内容 | 专家/管理员标记 | 高优先级（0.9） |
| └─ Published | - | 已发布知识 | 系统自动 | 标准优先级（0.7） |
| └─ Draft | - | 草稿/进行中 | 系统自动 | 低优先级（0.3） |
| **DocLifecycleStatus** | 枚举 | 文档生命周期状态 | SharePoint 状态字段 | 过滤和排序 |
| └─ Draft | - | 草稿 | 创建时默认 | 不参与 AI 问答 |
| └─ UnderReview | - | 审核中 | 提交审核后 | 仅管理员可见 |
| └─ Published | - | 已发布 | 审核通过后 | 正常使用 |
| └─ Archived | - | 已归档 | 手动归档 | 降低优先级 |
| └─ Deprecated | - | 已废弃 | 手动标记 | 不参与检索 |
| **DocType** | 分类 | 文档类型 | SharePoint 内容类型 | 基础分类（替代标签） |
| └─ Policy | - | 政策/制度 | - | 权重加成 1.0 |
| └─ Manual | - | 手册/指南 | - | 权重加成 0.9 |
| └─ Tutorial | - | 教程 | - | 权重加成 0.7 |
| └─ FAQ | - | 常见问题 | - | 权重加成 0.6 |
| └─ General | - | 一般文档 | - | 权重 0.5 |

**SharePoint 自定义字段配置**：
```
Site 设置 → Site Columns → 新建列：
1. DocAuthorityLevel (Choice)
   - Official（官方）
   - Expert（专家）
   - Published（已发布）
   - Draft（草稿）

2. DocLifecycleStatus (Choice)
   - Draft（草稿）
   - UnderReview（审核中）
   - Published（已发布）
   - Archived（已归档）
   - Deprecated（已废弃）

3. DocType (Content Type / Choice)
   - Policy（政策）
   - Manual（手册）
   - Tutorial（教程）
   - FAQ（常见问题）
   - General（一般）
```

**MVP 不需要完整标签系统**，但这3个核心字段提供了：
- ✅ **权威规则的数据抓手**：DocAuthorityLevel + DocType
- ✅ **生命周期管理**：DocLifecycleStatus
- ✅ **基础分类能力**：DocType（够用，不需要复杂标签）

**MVP 明确排除（Phase 2+）**：
- ❌ 实时多人协作编辑
- ❌ 术语表
- ❌ 去重检测
- ❌ 贡献者排行
- ❌ FAQ 系统
- ❌ 帮助聊天
- ❌ 知识图谱
- ❌ OCR/音视频转写
- ❌ 标签系统（仅基础分类）
- ❌ 审批流程（仅基础权限控制）
- ❌ 用户级权限过滤（检索前过滤，Phase 2+）

**里程碑验收**：
- ✅ 用户可通过搜索找到 SharePoint 文档
- ✅ 用户可通过 AI 问答获得准确回答
- ✅ 答案可追溯到源文档
- ✅ 权限隔离有效（部门 A 看不到部门 B 文档）
- ✅ 可查看基础使用数据

### 9.2 Phase 2: 增强功能（4-6 周）

**目标**：协作功能 + AI 增强 + 术语表

- ✅ 评论与讨论
- ✅ 多人协作编辑
- ✅ 通知系统
- ✅ 反馈机制
- ✅ FAQ 系统
- ✅ 自动摘要
- ✅ 智能推荐
- ✅ 智能标注
- ✅ 去重检测
- ✅ 术语表功能
- ✅ 术语自动识别
- ✅ 贡献者追踪

### 9.3 Phase 3: 高级特性（4-6 周）

**目标**：知识图谱 + 企业集成 + 审批优化

- ✅ 知识图谱构建
- ✅ 图谱可视化
- ✅ 术语使用分析
- ✅ 术语推荐引擎
- ✅ 企业通讯工具集成
- ✅ 工作流集成
- ✅ 简化审批流程（48小时 SLA）
- ✅ 智能审批路由
- ✅ SSO 单点登录
- ✅ Office 集成
- ✅ 性能优化
- ✅ 帮助聊天
- ✅ 完整度量仪表板

### 9.4 Phase 4: 运营支持（持续）

- ✅ 用户培训
- ✅ FAQ 维护和更新
- ✅ 术语库维护
- ✅ 文档编写
- ✅ 运维监控与告警
- ✅ 度量追踪和优化
- ✅ 持续迭代

> 💡 **详细实施计划和技术细节**请参考：[03-architecture.md](./03-architecture.md)

---

## 10. 成功指标与度量

### 10.1 核心 KPI（含基线与分阶段目标）

| 指标 | 基线（现状） | Month 1 | Month 3 | Month 6 | 最终目标 | 可归因性 |
|------|------------|---------|---------|---------|---------|---------|
| **用户活跃度** | 30% 月活 | 40% | 60% | 75% | 80% | ✅ 强归因 |
| **内容增长** | 每月新增 30 文档 | 50 | 80 | 100+ | 100+ | ⚠️ 相关性 |
| **搜索满意度** | 55%（关键词搜索） | 65% | 75% | 80% | 85% | ✅ 强归因 |
| **AI 使用率** | 0%（无 AI） | 20% | 40% | 55% | 60% | ✅ 完全归因 |
| **知识复用率** | 20% 被引用 2+ 次 | 25% | 35% | 45% | 50% | ⚠️ 相关性 |
| **平均搜索时间** | 15 分钟 | 10 分钟 | 6 分钟 | 4 分钟 | 3 分钟 | ✅ 强归因 |

**可归因性说明**：
- ✅ **强归因**：可直接归因于知识库系统引入（如 AI 使用率、搜索时间）
- ⚠️ **相关性**：受系统影响但也受其他因素影响（如内容增长、知识复用）

### 10.1.1 基线测量方法

**Month 0（上线前）- 必须完成基线测量**：

| 指标 | 测量方法 | 样本量 | 负责人 |
|------|---------|-------|-------|
| **平均搜索时间** | 用户调研问卷 + 观察法 | 50+ 用户 | 产品团队 |
| **内容重复率** | 人工抽样 + 相似度检测 | 200+ 文档 | 知识管理员 |
| **当前查找成功率** | 用户访谈 + 任务测试 | 30+ 任务 | UX 团队 |
| **培训成本** | HR 数据统计 | 过去 6 个月 | HR 部门 |
| **知识流失情况** | 离职员工知识盘点 | 过去 1 年 | 部门主管 |

**Month 1/3/6 - 阶段性复测**：
- 使用相同测量方法
- 对比基线数据
- 分析变化原因（归因分析）

### 10.2 关键指标

#### 10.2.1 时间节省指标

**关键指标**：
- 🔍 **搜索时间**：引入前 vs 引入后、节省比例
- 💡 **问题解决时间**：平均问答时间、传统方式耗时对比
- 📚 **培训时间**：入职培训时间减少比例
- 📝 **文档创建时间**：使用模板/AI助手的效率提升
- 💰 **总体节省**：每月节省小时数、成本节省、生产力提升

#### 10.2.2 使用率指标

**关键指标**：
- 👥 **整体使用**：DAU、MAU、人均会话数、平均会话时长
- 🎯 **功能使用率**：搜索、AI问答、协作、术语表、反馈提交率
- 💬 **内容互动**：文档浏览量、评论数、评分数、分享数
- ✍️ **贡献率**：活跃贡献者数、贡献者占比、人均贡献文档、内容质量分

#### 10.2.3 采用率指标

**关键指标**：
- 🏢 **部门采用率**：各部门采用率、活跃用户、文档创建数、参与度分数
- 📈 **时间维度**：Week1、Month1、Month3、Month6采用趋势、目标 vs 当前
- 👤 **用户分层**：超级用户、常规用户、偶尔用户、不活跃用户

#### 10.2.4 质量指标

**关键指标**：
- ⏱️ **审批周期**：平均审批时间、48小时内完成率、升级率、拒绝率
- 📉 **错误率降低**：产品错误率、运营错误率、实施前后对比、改善归因
- ✅ **信息一致性**：重复内容减少、版本冲突、过期文档、更新频率
- ⭐ **内容质量**：平均评分、完整性分数、准确率、新鲜度

#### 10.2.5 组织记忆指标

**关键指标**：
- 📚 **知识保留**：文档总数、知识覆盖度、关键知识文档化率
- 🔄 **知识传承**：员工流失率、知识流失率、知识保留率、继任者准备度
- 🕐 **历史可追溯性**：版本化文档数、平均版本数、最早文档日期、归档大小
- 🔗 **知识复用**：总引用次数、最受引用文档、跨部门复用率

> 💡 详细指标定义见 [03-architecture.md - 度量与分析接口](./03-architecture.md#度量与分析接口)

### 10.3 度量仪表板

**高管视图**：
```
知识库 ROI 仪表板:
┌─────────────────────────────────────────────────┐
│  📊 整体绩效 (Q4 2024)                           │
├─────────────────────────────────────────────────┤
│  ⏱️ 时间节省                                     │
│  月度节省: 1,248小时 | 成本: ¥312K              │
│  年化节省: ¥3.74M | ROI: 486%                   │
│                                                 │
│  📈 采用率                                       │
│  活跃用户: 892/1,050 (85%) ▲12%                │
│  部门覆盖: 12/12 (100%)                         │
│                                                 │
│  ⚡ 效率提升                                     │
│  PR周期: 28h → 16h (↓43%)                      │
│  错误率: 3.2% → 1.1% (↓66%)                    │
│  新人培训: 14天 → 7天 (↓50%)                   │
│                                                 │
│  🧠 组织记忆                                     │
│  文档化知识: 1,847篇                            │
│  关键知识覆盖: 94%                              │
│  知识保留率: 87% (vs 45% 之前)                  │
└─────────────────────────────────────────────────┘
```

### 10.4 业务影响指标

| 指标 | 目标 | 当前 | 业务价值 |
|------|------|------|----------|
| **时间节省** | 每月 1,000+ 小时 | 1,248 小时 | ¥312K/月成本节省 |
| **PR 周期** | < 24 小时 | 16 小时 | 更快交付 |
| **错误率** | 降低 50% | 降低 66% | 提升质量 |
| **培训时间** | 减少 40% | 减少 50% | 降低成本 |
| **采用率** | 80% | 85% | 全员参与 |
| **知识保留** | 85% | 87% | 组织记忆 |
| **重复减少** | 降低 50% | 降低 58% | 提升效率 |
| **用户满意度** | > 4.0/5.0 | 4.3/5.0 | 用户体验 |

### 10.5 长期价值指标

- ✅ **培训成本降低 50%**：从 ¥5K/人 → ¥2.5K/人
- ✅ **知识查找时间减少 60%**：从 15分钟 → 6分钟
- ✅ **新员工上手时间缩短 40%**：从 30天 → 18天
- ✅ **客服响应效率提升 30%**：从 10分钟 → 7分钟
- ✅ **产品错误率降低 66%**：减少返工和客户投诉
- ✅ **知识流失率降低 80%**：从 45% → 9%
- ✅ **跨部门协作效率提升 35%**：更好的信息共享

---

## 11. 落地关键点与风险

### 11.1 必须明确的 8 个关键落地点

#### 11.1.1 MVP 范围收敛 ✅

**现状**：已明确 MVP 只交付"搜得到→问得出→可引用→可控权限→可度量"闭环

**关键决策**：
- ✅ Phase 1 聚焦核心价值链
- ❌ 明确排除：实时协作、术语表、去重、FAQ、帮助聊天、知识图谱、OCR/转写
- ✅ **核心元数据**：3个关键字段（DocAuthorityLevel、DocLifecycleStatus、DocType）替代复杂标签系统

**MVP 元数据设计**（不依赖标签系统）：
- ✅ DocAuthorityLevel：官方/专家/已发布/草稿（权威规则数据抓手）
- ✅ DocLifecycleStatus：草稿/审核中/已发布/归档/废弃（生命周期管理）
- ✅ DocType：政策/手册/教程/FAQ/一般（基础分类，够用）

> 详见 [9.1 Phase 1: MVP](#91-phase-1-mvp4-6-周---核心闭环)

#### 11.1.2 SharePoint 同步策略 ✅

**已明确（v1.2.2 深化）**：
- ✅ **存储架构**：SharePoint 存储文件，KB 存储索引（节省 90% 存储成本）
- ✅ **文档来源**：指定 Site/Library，支持包含/排除规则
- ✅ **同步内容**：
  - ✅ 文件本体：**不同步**，保持在 SharePoint
  - ✅ 元数据：完整同步 + 3个核心字段
  - ✅ 文本内容：MVP 全文提取（扁平），Phase 2 结构化切分
  - ✅ 版本信息：仅同步版本号，不存储历史文件
  - ⚠️ 权限信息：映射同步与缓存顺延至 Phase 2+
- ✅ **同步方式**：Webhook（实时）+ 15分钟轮询（兜底）
  - ✅ Webhook 订阅：180天有效期，自动续订
  - ✅ 失败重试：指数退避，最多5次，DLQ
  - ✅ 24小时回看窗口：捕获遗漏变更
- ✅ **权限映射**：SharePoint Group → KB Role
  - ✅ MVP支持：Site/Library/Folder继承 + Item-level读取
  - ⚠️ MVP简化：复杂共享链接和外部来宾只读
  - ❌ MVP禁用：匿名链接（安全考虑）
- ✅ **版本管理**：SP 作为主库，KB 索引最新版本
- ✅ **文本提取**：MVP 全文（可检索），Phase 2 结构化（精确引用）
- ✅ **向量规模预估**：MVP 150万向量（800MB），Year1 4500万向量（21.6GB）
- ✅ **性能保障**：1000+ QPS通过缓存+读写分离+负载均衡

**用户访问流程**：
1. 搜索/问答 → KB 索引
2. 点击文档 → 跳转 SharePoint 预览/下载
3. 在线编辑 → 调用 SharePoint/Office Online

> 详见 [2.3.2 SharePoint 同步策略](#232-sharepoint-同步策略关键落地点)

#### 11.1.3 文件编辑边界 ✅

**已明确**：
- ✅ Office 文件：使用 M365 在线编辑（无需自研）
- ✅ KB 原生文章：自研编辑器，Phase 1 单人编辑，Phase 2 多人协作
- ✅ 实时协作：仅 M365 原生支持，自研部分 Phase 2

> 详见 [2.3.3 文件编辑策略](#233-文件编辑策略明确边界)

#### 11.1.4 OCR/音视频转写定位 ✅

**已明确**：
- ⚠️ 作为 Phase 3+ 或可插拔平台能力
- ⚠️ 优先集成外部服务（Azure Cognitive Services、AWS Transcribe）
- ⚠️ 不作为 MVP 必做项

> 详见 [4.1.1 文件上传与管理 - 高级功能](#411-文件上传与管理)

#### 11.1.5 审批规则一致性 ✅

**已明确**：
- ✅ 明确自动通过前提条件（低风险、有 Owner、非敏感、文件 < 10MB）
- ✅ 机密文档永不自动通过
- ✅ 所有自动通过记录完整审计日志

> 详见 [4.6.1 简化的审批流程 - 审批类型与 SLA](#461-简化的审批流程)

#### 11.1.6 KPI 可信度增强 ✅

**已明确**：
- ✅ 添加基线测量（Month 0）
- ✅ 分阶段目标（Month 1/3/6）
- ✅ 可归因性说明（强归因 vs 相关性）
- ✅ 测量方法和样本量

> 详见 [10.1 核心 KPI](#101-核心-kpi含基线与分阶段目标)

#### 11.1.7 AI 答案权威规则 ✅

**已明确**：
- ✅ 权威来源优先级（官方 > 专家 > 已发布 > 草稿）
- ✅ 版本优先级（最新 > 历史，生效中 > 计划 > 归档）
- ✅ 文档类型加权（政策 1.0 > 手册 0.9 > 博客 0.7...）
- ✅ 冲突处理策略（明确告知，展示不同观点）

> 详见 [5.1.3 答案权威规则](#513-答案权威规则核心差异化能力)

#### 11.1.8 数据与日志策略 ✅

**已明确**：
- ✅ 8 类日志及保存期限（操作 2年、搜索/问答 1年、审批 5年、审计永久）
- ✅ 脱敏策略（用户ID 哈希、敏感词过滤）
- ✅ 访问控制（管理员+审计员，导出需审批）
- ✅ AI 成本监控（每次调用、每日汇总、每月报告）

> 详见 [8.6 数据与日志](#86-数据与日志审计与合规关键)

#### 11.1.9 MVP 待确认清单（必须评审）

为避免“隐性假设”影响落地，以下事项需在开发启动前明确并记录决策：

- **MVP 首批文档来源范围**：具体 SharePoint Site/Library 列表、是否包含敏感域
- **权限策略（已确认）**：MVP 采用应用权限，仅站点级访问控制，用户级权限过滤顺延至 Phase 2+
- **MVP 站点范围（已确认）**：`https://faradayandfuture.sharepoint.com/sites/FFAIWorkspaceTest`
- **上传策略（已确认）**：默认文档库，允许所有文件类型，不限制大小，默认文件夹，同名自动重命名
- **原生文章（已确认）**：单人编辑，内容存储在数据库，用于独立页面试运行
- **自定义字段落地责任**：`DocAuthorityLevel`/`DocLifecycleStatus`/`DocType` 的创建、默认值与回填策略
- **向量库选型**：MVP 是否确定使用 Qdrant（含部署方式与资源规格）
- **AI 模型与成本边界**：模型供应商、成本上限、降级策略与缓存策略
- **KB 原生文章范围**：MVP 是否包含原生文章编辑、权限与合规边界
- **外部访客策略**：是否允许只读访问及审计口径

### 11.2 风险与应对

| 风险 | 影响 | 概率 | 应对措施 |
|------|------|------|----------|
| **AI 成本过高** | 高 | 中 | 模型选型优化、缓存策略 |
| **数据安全问题** | 高 | 低 | 加密、权限、审计 |
| **性能瓶颈** | 中 | 中 | 分布式架构、缓存 |
| **用户接受度低** | 高 | 中 | 培训、激励机制 |
| **内容质量差** | 中 | 中 | 审核机制、专家认证 |

---

## 12. 附录

### 12.1 参考资料

- [Notion 产品分析](https://www.notion.so/)
- [Confluence 功能对比](https://www.atlassian.com/software/confluence) - 术语链接功能参考
- [LangChain RAG 教程](https://python.langchain.com/docs/use_cases/question_answering/)
- [OpenAI Embeddings](https://platform.openai.com/docs/guides/embeddings)
- [Qdrant 文档](https://qdrant.tech/documentation/)
- [Confluence Glossary](https://confluence.atlassian.com/doc/add-a-glossary-139469.html) - 术语表最佳实践

### 12.2 相关文档

- [03-architecture.md](./03-architecture.md) - 架构设计与技术实现
- [05-data-model.md](./05-data-model.md) - 数据模型
- [07-api.md](./07-api.md) - API 文档（待补充）
- [开发流程规范](../../standards/05-development-workflow.md) - 开发流程规范
- [README.md](./README.md) - 模块说明

### 12.3 变更历史

| 版本 | 日期 | 变更说明 |
|------|------|----------|
| v1.0.0 | 2025-12-19 | 初始版本 |
| v1.1.0 | 2025-12-22 | **重大更新**：新增术语表、去重检测、贡献者追踪、简化审批流程、反馈系统、FAQ、帮助聊天、完整度量体系、SharePoint集成方案、重组文档结构 |
| v1.2.0 | 2025-12-22 | **落地关键点补充**：MVP范围收敛、SharePoint同步策略、文件编辑边界、OCR定位、审批规则一致性、KPI可信度、AI答案权威规则、数据与日志策略、新增"落地关键点"和"数据与日志"章节 |
| v1.2.1 | 2025-12-22 | **同步策略优化**：SharePoint存储文件+KB存储索引、节省90%存储、用户流程优化、版本策略明确、文件夹管理、更新"SharePoint同步策略"和"文档管理"全部子章节 |
| v1.2.2 | 2025-12-22 | **落地细节深化**（可评审版本）：<br>• 🎯 **权限映射边界**：明确MVP支持范围（Site/Library/Folder继承+Item-level读取），简化复杂场景，禁用匿名链接<br>• 🎯 **Webhook可靠性**：180天订阅+自动续订、指数退避重试、DLQ、24h回看窗口<br>• 🎯 **文本提取策略**：MVP全文提取（可检索），Phase2结构化切分（精确引用）<br>• 🎯 **RAG引用粒度**：必须包含（文档链接+片段+版本+时间），检索前权限过滤<br>• 🎯 **向量索引规模**：MVP→Year1预估表（150万→4500万向量），1000+ QPS应对方案<br>• 🎯 **MVP元数据设计**：3个核心字段（DocAuthorityLevel/DocLifecycleStatus/DocType）替代复杂标签，支持权威规则<br>• 更新所有相关章节<br>• 新增 SharePoint 自定义字段配置指南 |

---

## 📞 联系方式

如有疑问，请联系产品团队：product@example.com
