工欲善其事,必先利其器, 上一篇文章介绍了Scrapy 入门示例,接下来介绍几款工具!
Scrapy 支持使用xpath,css等来解析抓取的页面,如果对xpath不了解也不要紧,
神器一浏览器插件: Xpath 辅助工具
可以很方便提取想要的内容, 在Scrapy 入门示例中,获取456dev网站上一个栏目标题与链接地址就是用的xpath:
标题:
链接:
一个节点下使用@href(xpath基础语法)就可以获取链接了, 有了这个神器, 我们只要再稍微了解一点就xpath的基础语法就能完成常规的数据解析了.
第二款神器: 一个附带友好开发者工具的浏览器,比如Chrome浏览器,通过开发者工具分析网页结构再配合xpath可以分析比较复杂的网页;
通过开发者工具,分析网页请求,追溯数据来源.
一个图片网站,通过开发者工具发现图片的加载请求,数据源是JSON格式.
如果你觉得浏览器的开发者工具分析网络请求不好用, 那就试试这个吧:
一个强大的HTTP/HTTPS调试工具,同样用来分析请求.
追溯数据源.
关键字词: