使用过xpath来快速抓取页面上的内容,可以使用谷歌浏览器扩展来测试xpath表达式。
谷歌插件地址:https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl
我们来获取页面上所有的A标签href内容,具体其他表达式可以在谷歌插件上进行测试。
如下就是使用php用xpath表达式来获取内容!
<?php $html=file_get_contents('https://www.sogou.com/sogou?query=gif压缩'); $dom = new DOMDocument(); //从一个字符串加载HTML @$dom->loadHTML($html); //使该HTML规范化 $dom->normalize(); //用DOMXpath加载DOM,用于查询 $xpath = new DOMXPath($dom); #获取所有的a标签的地址 $hrefs = $xpath->query("/html/body//a//@href"); for ($i = 0; $i < $hrefs->length; $i++) { $href = $hrefs->item($i); $linktext = $href->nodeValue; echo $linktext; echo "\r\n"; }
运行结果如下:
http://tool.apizl.com/dev/runCode/8d4b897a657b85744bd498d152ba8a31.html
关键字词: