Spaces:

TUM
/

SmartPagerankSearch

Running

async def fetch(self, session, url, redirect_count=0, redirect_history=None):
    # 检查重定向深度
    if redirect_count >= self.max_redirects:
        return None
    
    # 检查重定向循环
    if url in redirect_history:
        return None

2. 线程安全问题 ✅

修复位置: _rate_limit() 和 _domain_delay() 方法

修复内容:

使用 asyncio.Lock 保护共享状态
添加 _rate_limit_lock、_domain_delay_lock、_last_url_lock
确保并发环境下的数据一致性

代码改进:

self._rate_limit_lock = asyncio.Lock()
self._domain_delay_lock = asyncio.Lock()
self._last_url_lock = asyncio.Lock()

async def _rate_limit(self):
    async with self._rate_limit_lock:
        # 线程安全的速率限制逻辑

3. SSL验证控制 ✅

修复位置: OptimizedCrawler.__init__() 和 fetch() 方法

修复内容:

添加 verify_ssl 参数（默认True）
生产环境默认启用SSL验证
开发环境可以禁用（通过参数控制）

代码改进:

def __init__(self, ..., verify_ssl=True):
    self.verify_ssl = verify_ssl

async def fetch(...):
    async with session.get(..., ssl=self.verify_ssl, ...):

4. 事件循环冲突 ✅

修复位置: OptimizedCrawler.parse() 方法

修复内容:

使用 asyncio.get_running_loop() 替代 asyncio.get_event_loop()
正确处理已有事件循环的情况
添加超时保护

代码改进:

try:
    loop = asyncio.get_running_loop()
    # 使用线程池处理
except RuntimeError:
    # 没有运行中的事件循环
    results = asyncio.run(self.run([url]))

5. 资源清理改进 ✅

修复位置: 添加 close() 方法和上下文管理器支持

修复内容:

添加显式的 close() 方法
实现上下文管理器（__enter__ 和 __exit__）
改进 __del__ 方法的错误处理

代码改进:

def close(self):
    if hasattr(self, 'executor'):
        self.executor.shutdown(wait=True)

def __enter__(self):
    return self

def __exit__(self, exc_type, exc_val, exc_tb):
    self.close()
    return False

🟡 中等缺陷修复

6. URL规范化 ✅

修复位置: 添加 _normalize_url() 方法

修复内容:

移除URL fragment（#）
处理相对路径（./ 和 ../）
规范化路径结构
统一URL格式

代码改进:

def _normalize_url(self, url):
    # 移除fragment
    url = url.split('#')[0]
    # 规范化路径
    # 处理./和../
    # 重建URL

7. 链接过滤改进 ✅

修复位置: extract_content_smart() 和 SmartCrawler.parse()

修复内容:

过滤 javascript:, mailto:, tel:, data:, file: 等无效链接
验证URL有效性
规范化所有提取的链接

代码改进:

# 过滤无效协议
if href.lower().startswith(('javascript:', 'mailto:', 'tel:', 'data:', 'file:')):
    continue

8. BeautifulSoup解析器回退 ✅

修复位置: _parse_sync() 和 SmartCrawler.parse()

修复内容:

优先使用 lxml 解析器（更快）
如果 lxml 不可用，自动回退到 html.parser
确保在所有环境下都能工作

代码改进:

try:
    soup = BeautifulSoup(html, 'lxml')
except Exception:
    logger.debug("lxml parser failed, falling back to html.parser")
    soup = BeautifulSoup(html, 'html.parser')

9. 输入验证 ✅

修复位置: 所有公共方法

修复内容:

验证URL格式
验证URL长度（最大2048字符）
验证参数类型
处理None和空字符串

代码改进:

def _is_valid_url(self, url):
    if not url or len(url) > 2048:
        return False
    # 验证scheme
    # 过滤无效协议

10. 图片扩展名检查改进 ✅

修复位置: extract_content_smart() 和 SmartCrawler.parse() 方法

修复内容:

改进扩展名提取逻辑
正确处理URL参数和fragment（使用 .split('?')[0].split('#')[0]）
支持更多图片格式

代码改进:

# 改进的扩展名提取：移除查询参数和fragment
ext = full_url.split('.')[-1].lower().split('?')[0].split('#')[0]

11. 编码检测改进 ✅

修复位置: SmartCrawler.parse() 和 OptimizedCrawler.fetch() 方法

修复内容:

SmartCrawler: 改进编码检测，尝试多种常见编码（utf-8, latin-1, iso-8859-1, cp1252）
OptimizedCrawler: 添加编码错误处理，如果aiohttp自动检测失败，手动尝试多种编码
使用 errors='replace' 替代 errors='ignore'，避免静默忽略错误

代码改进:

# SmartCrawler: 尝试多种编码
encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252']
for encoding in encodings:
    try:
        html = response.content.decode(encoding)
        break
    except (UnicodeDecodeError, LookupError):
        continue

# OptimizedCrawler: aiohttp编码错误处理
try:
    return await response.text()
except UnicodeDecodeError:
    # 手动尝试多种编码
    content = await response.read()
    # ... 尝试多种编码 ...

12. 删除未使用的变量 ✅

修复位置: OptimizedCrawler.__init__() 方法

修复内容:

删除未使用的 MIN_TEXT_DENSITY 变量
清理冗余代码

📊 修复统计

✅ 严重缺陷: 5个全部修复
✅ 中等缺陷: 9个全部修复（包括编码检测、图片扩展名检查等）
✅ 轻微缺陷: 2个修复（删除未使用变量、资源清理改进）

🎯 新增功能

上下文管理器支持

with OptimizedCrawler() as crawler:
    results = await crawler.run(urls)

可配置的SSL验证

crawler = OptimizedCrawler(verify_ssl=True)  # 生产环境
crawler = OptimizedCrawler(verify_ssl=False)  # 开发环境

可配置的重定向深度

crawler = OptimizedCrawler(max_redirects=10)

⚠️ 注意事项

SSL验证: 生产环境建议保持 verify_ssl=True（默认值）
重定向深度: 默认5次，可根据需要调整
资源清理: 推荐使用上下文管理器或显式调用 close()
并发安全: 现在所有共享状态都有锁保护，可以安全并发使用

🔄 向后兼容性

所有修复都保持了向后兼容性：

SmartCrawler 接口完全不变
OptimizedCrawler 的默认行为不变
新增参数都有合理的默认值

📝 使用示例

基础使用（修复后）

from crawler import OptimizedCrawler
import asyncio

# 使用上下文管理器（推荐）
with OptimizedCrawler(concurrency=3, delay=1.5, max_rate=3.0) as crawler:
    results = asyncio.run(crawler.run(urls))

生产环境配置

crawler = OptimizedCrawler(
    concurrency=3,
    delay=1.5,
    max_rate=3.0,
    verify_ssl=True,      # 启用SSL验证
    max_redirects=5       # 限制重定向深度
)

开发环境配置

crawler = OptimizedCrawler(
    concurrency=5,
    delay=0.5,
    verify_ssl=False,     # 开发环境可禁用
    max_redirects=10
)

✅ 测试建议

建议测试以下场景：

重定向循环检测
并发环境下的速率限制
大量URL的批量处理
无效URL的处理
资源清理（内存泄漏检查）