Spaces:

TUM
/

SmartPagerankSearch

Running

App Files Files Community

SmartPagerankSearch / CRAWLER_PROGRESS_FIX.md

GitHub Action

Sync from GitHub Actions (Clean Commit)

7f22d3c 15 days ago

preview code

raw

history blame contribute delete

2.21 kB

进度条卡住问题诊断和修复

问题描述

用户报告进度条一直卡在"Waiting for crawler to start..."

可能的原因

1. 新爬虫初始化问题

SyncCrawlerWrapper 包装了 AsyncCrawler
在独立线程中调用时，事件循环处理可能有问题
第一次调用可能需要初始化很多资源

2. 事件循环冲突

background_process_content 在独立线程中运行
新爬虫需要创建新的事件循环
可能存在事件循环冲突或阻塞

3. 爬虫调用阻塞

crawler.parse() 可能因为网络问题、超时等原因阻塞
没有超时保护，导致整个流程卡住

已实施的修复

1. 修复同步包装器

简化事件循环处理逻辑
添加详细的调试日志
确保在独立线程中正确创建新的事件循环

2. 添加调试日志

在 system_manager.py 中添加爬虫调用前后的日志
在 sync_wrapper.py 中添加详细的事件循环处理日志

3. 移除复杂的超时保护

简化爬虫调用代码
移除可能导致死锁的线程嵌套

测试建议

1. 检查日志输出

查看服务器日志，确认：

是否看到 "📞 Calling crawler.parse()..." 日志
是否看到 "✅ Crawler.parse() returned" 日志
是否有任何错误信息

2. 测试新爬虫

# 测试新爬虫是否正常工作
from crawler_v2 import SyncCrawlerWrapper
crawler = SyncCrawlerWrapper(enable_robots=False)
result = crawler.parse("https://www.tum.de/en/")
print(f"Result: {result is not None}")

3. 如果问题持续

考虑暂时回退到旧爬虫：

# 在 system_manager.py 中
from crawler import SmartCrawler
crawler = SmartCrawler()

下一步

如果新爬虫有问题：暂时使用旧爬虫，确保系统能正常工作
如果新爬虫正常：检查进度回调是否正确触发
添加更多诊断：在关键点添加日志和错误处理

临时解决方案

如果需要快速恢复功能，可以暂时回退到旧爬虫：

# system_manager.py
from crawler import SmartCrawler  # 使用旧爬虫
crawler = SmartCrawler()

然后在解决新爬虫问题后，再切换回来。