神马等搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取网站内容
理想状况下,如果您的网站网页间关联得当,神马的网页抓取工具便能够发现其中的大多数网页。即便如此,提交站点地图仍有助于搜索引擎更加有效地抓取网站,尤其是当网站符合以下某个条件时:
1.网站为新建网站且指向该网站的外部链接不多。搜索引擎的网页抓取工具通过跟踪网页之间的链接来抓取网页,如果没有其他网站链接到您的网页,可能不会发现您的网页。
2.网站规模很大。 在这种情况下,神马的网页抓取工具可能会在抓取时漏掉部分新网页。
3.网站中大量内容页之间互不关联或缺少有效链接。 如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,以确保搜索引擎不会漏掉您的网页。
需要注意的是,神马搜索会按正常流程分析、处理Sitemap,但不保证一定会抓取及索引您提交的所有网址,不保证其在搜索结果中的排名。
Sitemap格式:
神马搜索支持的Sitemap文件包括标准xml文件和索引型xml文件。标准xml文件最多包含10,000条url,如果url超过10,000条可采用索引型xml文件,索引型xml限定最多不超过三层。
标准xml文件格式示例:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填-->
<url>
<!--必填,定义某一个链接的入口,每一条数据必须要用<url>和</url>来标示 -->
<loc>http://m.domain.com/abc.xhtml</loc>
<!--必填,URL长度限制在256字节内-->
<lastmod>2014-05-01</lastmod>
<!--更新时间标签,非必填,用来表示最后更新时间-->
<changefreq>daily</changefreq>
<!--更新频率标签,非必填,用来告知引擎页面的更新频率 -->
<priority>0.5</priority>
<!--优先级标签,优先级值0.0-1.0,用来告知引擎该条url的优先级-->
</url>
<url>
<loc>http://m.domain.com/123.xhtml</loc>
<lastmod>2014-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
索引xml文件格式示例:
1.顶层Sitemap格式
<sitemapindex>
<sitemap>
<loc>
http://www.abc.com/sitemap_v2/detail_new/index/index_1.xml
</loc>
<lastmod>2013-12-18 12:59:12</lastmod>
<!--更新时间标签,必填,用来表示xml文件最后更新时间-->
</sitemap>
</sitemapindex>
2.中间层Sitemap格式(非必要,视url数量而定)
<sitemapindex>
<sitemap>
<loc>
http://www.abc.com/sitemap_v2/detail_new/1/1.xml
</loc>
<lastmod>2013-12-18 12:59:12</lastmod>
</sitemap>
</sitemapindex>