Scrapy 实战准备 Python爬虫教程实战

Scrapy 支持使用xpath,css等来解析抓取的页面,如果对xpath不了解也不要紧,

神器一浏览器插件: Xpath 辅助工具

Scrapy 实战准备

可以很方便提取想要的内容, 在Scrapy 入门示例中,获取456dev网站上一个栏目标题与链接地址就是用的xpath:

标题:

Scrapy 实战准备

链接:

Scrapy 实战准备

一个节点下使用@href(xpath基础语法)就可以获取链接了, 有了这个神器, 我们只要再稍微了解一点就xpath的基础语法就能完成常规的数据解析了.

第二款神器: 一个附带友好开发者工具的浏览器,比如Chrome浏览器,通过开发者工具分析网页结构再配合xpath可以分析比较复杂的网页;

通过开发者工具,分析网页请求,追溯数据来源.

一个图片网站,通过开发者工具发现图片的加载请求,数据源是JSON格式. Scrapy 实战准备

如果你觉得浏览器的开发者工具分析网络请求不好用, 那就试试这个吧:

一个强大的HTTP/HTTPS调试工具,同样用来分析请求.

追溯数据源.