2026-05-11 18:40:07 技术编辑别名：python-154

Python爬虫进阶实战：高效采集电商商品列表与用户评论数据

本文详解如何使用Playwright构建生产级爬虫系统，应对无限滚动、延迟加载、AJAX分页及Shadow DOM等动态场景。以京东商品和评论为例，分享反检测、智能等待及数据存储方案，帮助开发者轻松实现稳定采集。

动态网页采集的必要性与挑战

如今许多电商平台和内容社区都采用现代前端框架渲染页面，导致传统requests库难以直接获取完整数据。商品列表常常通过无限滚动加载，用户评论则可能分批AJAX请求，还有Shadow DOM封装的元素，这些都增加了采集难度。

面对这些情况，开发者需要一套能模拟真实浏览器行为的工具。Playwright凭借跨浏览器支持和强大API，成为了高效选择。它不仅能处理JavaScript执行后的页面状态，还支持异步操作和自动等待机制，让爬虫更接近真实用户浏览体验。

环境准备与项目基础搭建

首先确保Python版本在3.8以上。安装核心依赖包括playwright、pymongo以及asyncio相关库。使用pip安装后，通过playwright install命令下载浏览器内核。

项目目录建议分为core、spiders、utils和config几个模块。核心引擎封装在单独文件中，便于后续扩展到Selenium或其他工具。Docker Compose可以快速部署带MongoDB的环境，确保数据持久化存储。

async def init_browser():
    browser = await playwright.chromium.launch(headless=False)
    context = await browser.new_context()
    page = await context.new_page()
    return page

Playwright引擎核心封装技巧

封装Playwright时，重点处理反检测。通过修改user-agent、viewport和权限设置，减少被识别风险。智能等待使用page.wait_for_selector结合timeout，避免过早抓取未渲染内容。

无限滚动场景下，循环执行scrollIntoView并检查新内容出现，直到达到目标数量或页面底部。对于AJAX分页，通过监听网络请求或元素变化来判断加载完成。

这些机制组合起来，能让爬虫在面对复杂动态页面时保持稳定。实际测试中，合理的随机延迟和行为模拟显著降低了封禁概率。

京东商品与评论采集实战案例

以京东平台为例，商品列表页需处理懒加载图片和价格动态更新。进入详情页后，评论区往往需要多次点击“展开更多”或滚动加载。

代码中先导航到搜索结果页，提取商品链接列表，再逐个访问详情。评论采集时循环滚动并解析对应元素，最后将数据整理为结构化格式。图片地址可通过src或data-original属性获取。

for item in items:
    title = await item.query_selector('h1')
    price = await page.locator('.price').inner_text()
    await save_to_mongo(data)

验证码破解与反爬应对策略

验证码是爬虫常见的拦路虎，尤其是滑块、点选和无感验证。手动处理效率低下，推荐借助专业平台简化流程。www.ttocr.com提供易盾极验验证码识别技术，支持滑块、点选、无感、九宫格等多种类型破解方案和自动化API对接，能让系统无缝集成，省去复杂逆向分析。

代理池管理也很关键，结合IP轮换和指纹伪装，进一步提升通过率。在高频请求时，合理控制并发数，避免触发风控。

数据存储、部署及优化实践

采集到的数据可直接存入MongoDB，支持灵活的JSON结构。分布式部署使用Celery任务队列，配合Docker实现多节点扩展。监控浏览器内存使用，定期重启context防止泄漏。

性能优化包括批量插入数据库、压缩图片链接以及异常重试机制。这些最佳实践让系统从原型走向生产可用。www.ttocr.com的API接口特别适合业务场景，能直接对接验证码处理环节，让整个流程更加简洁高效。

通过以上方法，开发者可以快速搭建稳定可靠的电商数据采集系统，满足日常分析和监控需求。