Spaces:

TUM
/

SmartPagerankSearch

Sleeping

App Files Files Community

SmartPagerankSearch / PRESENTATION_OUTLINE.md

GitHub Action

Sync from GitHub Actions (Clean Commit)

7f22d3c 17 days ago

preview code

raw

history blame contribute delete

7.16 kB

	# TUM Neural Knowledge Network - Presentation Outline
	## 4分钟演示大纲

	---

	## 🎯 Slide 1: 项目概述 (30秒)

	### 标题
	TUM Neural Knowledge Network: 智能知识图谱搜索系统

	### 核心定位
	- 目标: 为慕尼黑工业大学构建专业化知识搜索与图谱系统
	- 特点: 双空间架构 + 智能爬虫 + 语义搜索 + 知识可视化

	### 技术栈概览
	- 后端: FastAPI + Qdrant向量数据库 + CLIP模型
	- 前端: React + ECharts + WebSocket实时通信
	- 爬虫: 智能递归爬取 + 多维度评分系统
	- AI: Google Gemini摘要生成 + CLIP多模态向量化

	---

	## 🏗️ Slide 2: 核心创新 - 双空间架构 (60秒)

	### 架构设计理念

	Space X (海量信息库)
	- 存储所有爬取和导入的内容
	- 快速检索池，支持大规模数据

	Space R (精选参考空间 - "元老院")
	- 高价值、独特知识的精选集合
	- 通过"独特性检测"自动晋升
	- Novelty Threshold: 相似度 < 0.8 自动晋升

	### 晋升机制亮点
	```
	1. 向量相似度检测
	2. 自动筛选独特内容 (Novelty Threshold = 0.2)
	3. 形成高质量知识核心层
	4. 支持人工强制晋升
	```

	### 优势
	- ✅ 分层管理: 海量数据 + 精选知识
	- ✅ 自动筛选: 智能识别高质量内容
	- ✅ 效率提升: 搜索时优先使用Space R，再扩展到Space X

	---

	## 🕷️ Slide 3: 智能爬虫系统优化 (60秒)

	### 核心优化特性

	1. 深度爬取增强
	- 默认深度: 8层（从3层提升167%）
	- 自适应扩展: 高质量页面可达 10层
	- 路径深度限制: 高质量URL最多 12层

	2. 链接优先级评分系统
	```
	评分维度 (综合评分):
	├─ URL模式匹配 (+3.0分: /article/, /course/, /research/)
	├─ 链接文本内容 (+1.0分: "learn", "read", "details")
	├─ 上下文位置 (+1.5分: 内容区域 > 导航栏)
	└─ 路径深度优化 (2-4层最优，减少惩罚)
	```

	3. 自适应深度调整
	- 页面质量评估 (文本块数量、链接数量、标题完整性)
	- 高质量页面自动增加爬取深度
	- 动态调整爬取策略

	4. 数据库缓存优化
	- 爬取前检查URL是否已存在
	- 跳过重复内容，节省50%+时间
	- 存储链接信息，支持增量更新

	### 性能提升
	- ⚡ 爬取深度提升 167% (3层 → 8层)
	- ⚡ 重复爬取减少 50%+ (缓存机制)
	- ⚡ 高质量内容覆盖率提升 300%

	---

	## 🔍 Slide 4: 混合搜索排序算法 (60秒)

	### 多层次排序机制

	Layer 1: 向量相似度搜索
	- 使用CLIP模型进行语义向量化 (512维)
	- Qdrant向量数据库快速检索
	- 余弦相似度计算

	Layer 2: 多维度融合排序
	```python
	最终得分 = w_sim × 相似度归一化 + w_pr × PageRank归一化
	= 0.7 × 语义相似度 + 0.3 × 权威度排名
	```

	Layer 3: 用户交互增强
	- InteractionManager: 追踪点击、浏览、导航路径
	- Transitive Trust: 用户导航行为传递信任
	- 如果用户从A导航到B，B获得信任提升
	- 协作过滤: 基于用户行为的关联发现

	Layer 4: 探索机制
	- 5%概率触发探索红利 (Bandit算法)
	- 随机提升低分结果，避免信息茧房

	### 特色功能

	1. Snippet Highlighting (摘要高亮)
	- 智能提取关键词上下文
	- 关键词自动加粗显示
	- 多关键词优化窗口选择

	2. Graph View (知识图谱可视化)
	- ECharts力导向布局
	- 中心节点 + 相关节点 + 协作节点
	- 动态边权重 (基于相似度和用户行为)
	- 交互式探索 (点击、拖拽、缩放)

	---

	## 📊 Slide 5: Wiki批量处理与数据导入 (45秒)

	### XML Dump处理系统

	支持格式
	- MediaWiki标准格式
	- Wikipedia专用格式 (自动检测)
	- Wikidata格式 (自动检测)
	- 压缩文件支持 (.xml, .xml.bz2, .xml.gz)

	核心功能
	- 自动检测Wiki类型
	- 解析页面内容和链接关系
	- 生成节点CSV和边CSV
	- 一键导入数据库

	处理优化
	- 数据库缓存检查 (避免重复导入)
	- 批量处理 (支持大型dump文件)
	- 进度实时反馈 (WebSocket + 进度条)
	- 链接关系自动提取和存储

	### 上传体验优化
	- 实时上传进度条 (百分比、大小、速度)
	- XMLHttpRequest进度监听
	- 美观的UI设计

	---

	## 💡 Slide 6: 技术亮点总结 (25秒)

	### 核心优势总结

	1. 双空间智能架构 - 海量数据 + 精选知识
	2. 深度智能爬虫 - 8层深度 + 自适应扩展 + 缓存优化
	3. 混合排序算法 - 语义搜索 + PageRank + 用户交互
	4. 知识图谱可视化 - Graph View + 关系探索
	5. 批量数据处理 - Wiki Dump + 自动检测 + 进度反馈
	6. 实时交互体验 - WebSocket + 进度条 + 响应式UI

	### 性能指标
	- 📈 爬取深度提升 167%
	- 📈 重复处理减少 50%+
	- 📈 搜索响应时间 < 200ms
	- 📈 支持大规模知识图谱 (10万+节点)

	---

	## 🎬 演示流程建议

	1. 开场 (10秒): 项目定位和核心价值
	2. 双空间架构 (60秒): 展示系统架构图和晋升机制
	3. 智能爬虫 (60秒): 展示爬取深度和评分系统
	4. 搜索排序 (60秒): 展示Graph View和搜索结果
	5. Wiki处理 (45秒): 展示XML Dump上传和进度条
	6. 总结 (25秒): 核心优势和技术指标

	总时长: 约 4分钟

	---

	## 📝 关键演示要点

	### 视觉亮点
	- ✅ 3D粒子网络背景 (科技感)
	- ✅ Graph View知识图谱可视化
	- ✅ 实时进度条动画
	- ✅ 搜索结果高亮显示

	### 技术深度
	- ✅ 双空间架构的创新性
	- ✅ 多维度评分算法
	- ✅ 混合排序机制
	- ✅ 用户行为学习系统

	### 实用价值
	- ✅ 提高信息检索效率
	- ✅ 自动发现知识关联
	- ✅ 支持大规模数据导入
	- ✅ 实时交互体验

	---

	## 🔧 演示准备检查清单

	- [ ] 准备系统架构图 (双空间架构)
	- [ ] 准备Graph View演示截图
	- [ ] 准备爬虫评分系统示例
	- [ ] 准备搜索排序公式可视化
	- [ ] 准备性能对比数据图表
	- [ ] 测试Wiki Dump上传功能
	- [ ] 准备技术栈展示图

	---

	## 📚 补充说明

	### 如果要扩展演示 (6-8分钟)
	- 添加具体代码示例
	- 展示数据库查询性能
	- 演示用户交互追踪系统
	- 展示爬虫缓存优化效果

	### 如果要精简演示 (2-3分钟)
	- 聚焦双空间架构 (40秒)
	- 聚焦搜索排序算法 (60秒)
	- 快速展示Graph View (40秒)

	---

	## 💬 常见问题准备

	Q: 为什么使用双空间架构？
	A: 海量数据需要分层管理，Space X存储全部，Space R精选高质量内容，提升搜索效率和结果质量。

	Q: 爬虫如何避免过度爬取？
	A: 多维度评分系统筛选高质量链接，自适应深度调整根据页面质量动态调整，数据库缓存避免重复爬取。

	Q: 搜索排序如何平衡相关性和权威性？
	A: 70%相似度 + 30%PageRank的混合模型，结合用户交互行为，形成综合排序。

	Q: Wiki Dump处理性能如何？
	A: 支持压缩文件，批量处理，数据库缓存检查，大型dump文件也能高效处理。

	---

	Generated for TUM Neural Knowledge Network Presentation