今天在给dedecms网站写入tobots.txt的时候,发现了很多争议,其中一点就是要不要将css/js写进去,纠结半天后,我还是没写。
最后,我是这样写入的:
稍微解释一下后面几个文件的意思:
include织梦的核心文件夹,里面放点都是织梦的程序文件
templets这个是织梦的模板文件
data是织梦存放网站数据信息的文件,里面涉及到网站的数据安全
rcshanyao是我网站的后台文件,织梦默认的是dede。
将这些文件都屏蔽后,有个uploads文件,里面网站一些上传来图片,我希望这些图片被抓取所以没有禁止,如果你不希望被抓取也可以写进去。
重点说说css/js为何没有写进去,主要依据如下:
1、css:
根据对数个网站的服务器WEB日志的跟踪分析发现:不管你是否在Robots.txt中禁止对CSS文件的抓取,百度仍然会高频抓你的css文件。
为什么?因为,包括百度在内的所有搜索引擎,必需要根据样式表来分析你的网页和用户体验性是否友好,网页前端是否规范,网页是否适合移动端浏览。
还有一点更重要的,在搜索引擎与黑帽灰帽SEOer的博奕中,搜索引擎必需从样式中分析网站是否存在一个重要的作弊行为:隐藏文本!所以,CSS文件不应该在robots.txt文件中被禁止。
2、js脚本:
这是seoer产争议之处。JS多用于一些页面效果或作为跟踪脚本等,看起来似乎不需要搜索去抓取分析。但是事实上,基于与CSS文件相同的理由,搜索引擎有必要去解析JS内容与JS呈现的效果。
因为JS要用于控制CSS的效果,也可以用来显示一些非HTML文本的内容。谷歌对JS的解析非常强大,而百度稍弱。
所以我也没有将它们禁止,毕竟大家都知道现在百度是越来越智能了。
当然,这仅仅是建议,因为有些人认为将它们写入可以减少带宽压力,提供干净的索引环境,这也无可厚非。
同时,我们也可以借鉴别人dedecms网站的写法,在他们网站首页后输入/robots.txt,回车就可以查看了。