File size: 2,214 Bytes
7f22d3c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
# 进度条卡住问题诊断和修复

## 问题描述
用户报告进度条一直卡在"Waiting for crawler to start..."

## 可能的原因

### 1. 新爬虫初始化问题
- `SyncCrawlerWrapper` 包装了 `AsyncCrawler`
- 在独立线程中调用时,事件循环处理可能有问题
- 第一次调用可能需要初始化很多资源

### 2. 事件循环冲突
- `background_process_content` 在独立线程中运行
- 新爬虫需要创建新的事件循环
- 可能存在事件循环冲突或阻塞

### 3. 爬虫调用阻塞
- `crawler.parse()` 可能因为网络问题、超时等原因阻塞
- 没有超时保护,导致整个流程卡住

## 已实施的修复

### 1. 修复同步包装器
- 简化事件循环处理逻辑
- 添加详细的调试日志
- 确保在独立线程中正确创建新的事件循环

### 2. 添加调试日志
-`system_manager.py` 中添加爬虫调用前后的日志
-`sync_wrapper.py` 中添加详细的事件循环处理日志

### 3. 移除复杂的超时保护
- 简化爬虫调用代码
- 移除可能导致死锁的线程嵌套

## 测试建议

### 1. 检查日志输出
查看服务器日志,确认:
- 是否看到 "📞 Calling crawler.parse()..." 日志
- 是否看到 "✅ Crawler.parse() returned" 日志
- 是否有任何错误信息

### 2. 测试新爬虫
```python
# 测试新爬虫是否正常工作
from crawler_v2 import SyncCrawlerWrapper
crawler = SyncCrawlerWrapper(enable_robots=False)
result = crawler.parse("https://www.tum.de/en/")
print(f"Result: {result is not None}")
```

### 3. 如果问题持续
考虑暂时回退到旧爬虫:
```python
# 在 system_manager.py 中
from crawler import SmartCrawler
crawler = SmartCrawler()
```

## 下一步

1. **如果新爬虫有问题**:暂时使用旧爬虫,确保系统能正常工作
2. **如果新爬虫正常**:检查进度回调是否正确触发
3. **添加更多诊断**:在关键点添加日志和错误处理

## 临时解决方案

如果需要快速恢复功能,可以暂时回退到旧爬虫:

```python
# system_manager.py
from crawler import SmartCrawler  # 使用旧爬虫
crawler = SmartCrawler()
```

然后在解决新爬虫问题后,再切换回来。