Spaces:
Sleeping
Sleeping
| # TUM Neural Knowledge Network - Presentation Outline | |
| ## 4分钟演示大纲 | |
| --- | |
| ## 🎯 Slide 1: 项目概述 (30秒) | |
| ### 标题 | |
| **TUM Neural Knowledge Network: 智能知识图谱搜索系统** | |
| ### 核心定位 | |
| - **目标**: 为慕尼黑工业大学构建专业化知识搜索与图谱系统 | |
| - **特点**: 双空间架构 + 智能爬虫 + 语义搜索 + 知识可视化 | |
| ### 技术栈概览 | |
| - **后端**: FastAPI + Qdrant向量数据库 + CLIP模型 | |
| - **前端**: React + ECharts + WebSocket实时通信 | |
| - **爬虫**: 智能递归爬取 + 多维度评分系统 | |
| - **AI**: Google Gemini摘要生成 + CLIP多模态向量化 | |
| --- | |
| ## 🏗️ Slide 2: 核心创新 - 双空间架构 (60秒) | |
| ### 架构设计理念 | |
| **Space X (海量信息库)** | |
| - 存储所有爬取和导入的内容 | |
| - 快速检索池,支持大规模数据 | |
| **Space R (精选参考空间 - "元老院")** | |
| - 高价值、独特知识的精选集合 | |
| - 通过"独特性检测"自动晋升 | |
| - Novelty Threshold: 相似度 < 0.8 自动晋升 | |
| ### 晋升机制亮点 | |
| ``` | |
| 1. 向量相似度检测 | |
| 2. 自动筛选独特内容 (Novelty Threshold = 0.2) | |
| 3. 形成高质量知识核心层 | |
| 4. 支持人工强制晋升 | |
| ``` | |
| ### 优势 | |
| - ✅ **分层管理**: 海量数据 + 精选知识 | |
| - ✅ **自动筛选**: 智能识别高质量内容 | |
| - ✅ **效率提升**: 搜索时优先使用Space R,再扩展到Space X | |
| --- | |
| ## 🕷️ Slide 3: 智能爬虫系统优化 (60秒) | |
| ### 核心优化特性 | |
| **1. 深度爬取增强** | |
| - 默认深度: **8层**(从3层提升167%) | |
| - 自适应扩展: 高质量页面可达 **10层** | |
| - 路径深度限制: 高质量URL最多 **12层** | |
| **2. 链接优先级评分系统** | |
| ``` | |
| 评分维度 (综合评分): | |
| ├─ URL模式匹配 (+3.0分: /article/, /course/, /research/) | |
| ├─ 链接文本内容 (+1.0分: "learn", "read", "details") | |
| ├─ 上下文位置 (+1.5分: 内容区域 > 导航栏) | |
| └─ 路径深度优化 (2-4层最优,减少惩罚) | |
| ``` | |
| **3. 自适应深度调整** | |
| - 页面质量评估 (文本块数量、链接数量、标题完整性) | |
| - 高质量页面自动增加爬取深度 | |
| - 动态调整爬取策略 | |
| **4. 数据库缓存优化** | |
| - 爬取前检查URL是否已存在 | |
| - 跳过重复内容,节省50%+时间 | |
| - 存储链接信息,支持增量更新 | |
| ### 性能提升 | |
| - ⚡ 爬取深度提升 **167%** (3层 → 8层) | |
| - ⚡ 重复爬取减少 **50%+** (缓存机制) | |
| - ⚡ 高质量内容覆盖率提升 **300%** | |
| --- | |
| ## 🔍 Slide 4: 混合搜索排序算法 (60秒) | |
| ### 多层次排序机制 | |
| **Layer 1: 向量相似度搜索** | |
| - 使用CLIP模型进行语义向量化 (512维) | |
| - Qdrant向量数据库快速检索 | |
| - 余弦相似度计算 | |
| **Layer 2: 多维度融合排序** | |
| ```python | |
| 最终得分 = w_sim × 相似度归一化 + w_pr × PageRank归一化 | |
| = 0.7 × 语义相似度 + 0.3 × 权威度排名 | |
| ``` | |
| **Layer 3: 用户交互增强** | |
| - **InteractionManager**: 追踪点击、浏览、导航路径 | |
| - **Transitive Trust**: 用户导航行为传递信任 | |
| - 如果用户从A导航到B,B获得信任提升 | |
| - **协作过滤**: 基于用户行为的关联发现 | |
| **Layer 4: 探索机制** | |
| - 5%概率触发探索红利 (Bandit算法) | |
| - 随机提升低分结果,避免信息茧房 | |
| ### 特色功能 | |
| **1. Snippet Highlighting (摘要高亮)** | |
| - 智能提取关键词上下文 | |
| - 关键词自动加粗显示 | |
| - 多关键词优化窗口选择 | |
| **2. Graph View (知识图谱可视化)** | |
| - ECharts力导向布局 | |
| - 中心节点 + 相关节点 + 协作节点 | |
| - 动态边权重 (基于相似度和用户行为) | |
| - 交互式探索 (点击、拖拽、缩放) | |
| --- | |
| ## 📊 Slide 5: Wiki批量处理与数据导入 (45秒) | |
| ### XML Dump处理系统 | |
| **支持格式** | |
| - MediaWiki标准格式 | |
| - Wikipedia专用格式 (自动检测) | |
| - Wikidata格式 (自动检测) | |
| - 压缩文件支持 (.xml, .xml.bz2, .xml.gz) | |
| **核心功能** | |
| - 自动检测Wiki类型 | |
| - 解析页面内容和链接关系 | |
| - 生成节点CSV和边CSV | |
| - 一键导入数据库 | |
| **处理优化** | |
| - 数据库缓存检查 (避免重复导入) | |
| - 批量处理 (支持大型dump文件) | |
| - 进度实时反馈 (WebSocket + 进度条) | |
| - 链接关系自动提取和存储 | |
| ### 上传体验优化 | |
| - 实时上传进度条 (百分比、大小、速度) | |
| - XMLHttpRequest进度监听 | |
| - 美观的UI设计 | |
| --- | |
| ## 💡 Slide 6: 技术亮点总结 (25秒) | |
| ### 核心优势总结 | |
| 1. **双空间智能架构** - 海量数据 + 精选知识 | |
| 2. **深度智能爬虫** - 8层深度 + 自适应扩展 + 缓存优化 | |
| 3. **混合排序算法** - 语义搜索 + PageRank + 用户交互 | |
| 4. **知识图谱可视化** - Graph View + 关系探索 | |
| 5. **批量数据处理** - Wiki Dump + 自动检测 + 进度反馈 | |
| 6. **实时交互体验** - WebSocket + 进度条 + 响应式UI | |
| ### 性能指标 | |
| - 📈 爬取深度提升 **167%** | |
| - 📈 重复处理减少 **50%+** | |
| - 📈 搜索响应时间 < **200ms** | |
| - 📈 支持大规模知识图谱 (10万+节点) | |
| --- | |
| ## 🎬 演示流程建议 | |
| 1. **开场** (10秒): 项目定位和核心价值 | |
| 2. **双空间架构** (60秒): 展示系统架构图和晋升机制 | |
| 3. **智能爬虫** (60秒): 展示爬取深度和评分系统 | |
| 4. **搜索排序** (60秒): 展示Graph View和搜索结果 | |
| 5. **Wiki处理** (45秒): 展示XML Dump上传和进度条 | |
| 6. **总结** (25秒): 核心优势和技术指标 | |
| **总时长**: 约 **4分钟** | |
| --- | |
| ## 📝 关键演示要点 | |
| ### 视觉亮点 | |
| - ✅ 3D粒子网络背景 (科技感) | |
| - ✅ Graph View知识图谱可视化 | |
| - ✅ 实时进度条动画 | |
| - ✅ 搜索结果高亮显示 | |
| ### 技术深度 | |
| - ✅ 双空间架构的创新性 | |
| - ✅ 多维度评分算法 | |
| - ✅ 混合排序机制 | |
| - ✅ 用户行为学习系统 | |
| ### 实用价值 | |
| - ✅ 提高信息检索效率 | |
| - ✅ 自动发现知识关联 | |
| - ✅ 支持大规模数据导入 | |
| - ✅ 实时交互体验 | |
| --- | |
| ## 🔧 演示准备检查清单 | |
| - [ ] 准备系统架构图 (双空间架构) | |
| - [ ] 准备Graph View演示截图 | |
| - [ ] 准备爬虫评分系统示例 | |
| - [ ] 准备搜索排序公式可视化 | |
| - [ ] 准备性能对比数据图表 | |
| - [ ] 测试Wiki Dump上传功能 | |
| - [ ] 准备技术栈展示图 | |
| --- | |
| ## 📚 补充说明 | |
| ### 如果要扩展演示 (6-8分钟) | |
| - 添加具体代码示例 | |
| - 展示数据库查询性能 | |
| - 演示用户交互追踪系统 | |
| - 展示爬虫缓存优化效果 | |
| ### 如果要精简演示 (2-3分钟) | |
| - 聚焦双空间架构 (40秒) | |
| - 聚焦搜索排序算法 (60秒) | |
| - 快速展示Graph View (40秒) | |
| --- | |
| ## 💬 常见问题准备 | |
| **Q: 为什么使用双空间架构?** | |
| A: 海量数据需要分层管理,Space X存储全部,Space R精选高质量内容,提升搜索效率和结果质量。 | |
| **Q: 爬虫如何避免过度爬取?** | |
| A: 多维度评分系统筛选高质量链接,自适应深度调整根据页面质量动态调整,数据库缓存避免重复爬取。 | |
| **Q: 搜索排序如何平衡相关性和权威性?** | |
| A: 70%相似度 + 30%PageRank的混合模型,结合用户交互行为,形成综合排序。 | |
| **Q: Wiki Dump处理性能如何?** | |
| A: 支持压缩文件,批量处理,数据库缓存检查,大型dump文件也能高效处理。 | |
| --- | |
| *Generated for TUM Neural Knowledge Network Presentation* | |