SmartPagerankSearch / CRAWLER_PROGRESS_FIX.md
GitHub Action
Sync from GitHub Actions (Clean Commit)
7f22d3c

进度条卡住问题诊断和修复

问题描述

用户报告进度条一直卡在"Waiting for crawler to start..."

可能的原因

1. 新爬虫初始化问题

  • SyncCrawlerWrapper 包装了 AsyncCrawler
  • 在独立线程中调用时,事件循环处理可能有问题
  • 第一次调用可能需要初始化很多资源

2. 事件循环冲突

  • background_process_content 在独立线程中运行
  • 新爬虫需要创建新的事件循环
  • 可能存在事件循环冲突或阻塞

3. 爬虫调用阻塞

  • crawler.parse() 可能因为网络问题、超时等原因阻塞
  • 没有超时保护,导致整个流程卡住

已实施的修复

1. 修复同步包装器

  • 简化事件循环处理逻辑
  • 添加详细的调试日志
  • 确保在独立线程中正确创建新的事件循环

2. 添加调试日志

  • system_manager.py 中添加爬虫调用前后的日志
  • sync_wrapper.py 中添加详细的事件循环处理日志

3. 移除复杂的超时保护

  • 简化爬虫调用代码
  • 移除可能导致死锁的线程嵌套

测试建议

1. 检查日志输出

查看服务器日志,确认:

  • 是否看到 "📞 Calling crawler.parse()..." 日志
  • 是否看到 "✅ Crawler.parse() returned" 日志
  • 是否有任何错误信息

2. 测试新爬虫

# 测试新爬虫是否正常工作
from crawler_v2 import SyncCrawlerWrapper
crawler = SyncCrawlerWrapper(enable_robots=False)
result = crawler.parse("https://www.tum.de/en/")
print(f"Result: {result is not None}")

3. 如果问题持续

考虑暂时回退到旧爬虫:

# 在 system_manager.py 中
from crawler import SmartCrawler
crawler = SmartCrawler()

下一步

  1. 如果新爬虫有问题:暂时使用旧爬虫,确保系统能正常工作
  2. 如果新爬虫正常:检查进度回调是否正确触发
  3. 添加更多诊断:在关键点添加日志和错误处理

临时解决方案

如果需要快速恢复功能,可以暂时回退到旧爬虫:

# system_manager.py
from crawler import SmartCrawler  # 使用旧爬虫
crawler = SmartCrawler()

然后在解决新爬虫问题后,再切换回来。