主页 > 营销教程 > seo高级教程 > 站长必知基础(一):如何阻止垃圾蜘蛛的抓取

站长必知基础(一):如何阻止垃圾蜘蛛的抓取

石家庄seo seo高级教程 2020-09-15 09:11:11

作为一个网站的负责人,你有没有注意到IIS日志的信息细节?如果没有,我肯定你网站的很多带宽都被所谓的蜘蛛占用了。即使你的带宽很大,你也不在乎一点点流量,从优化到完美,它都远远达不到标准。蜘蛛分为真蜘蛛和假蜘蛛。大型搜索引擎的蜘蛛,如百度和谷歌,以及假蜘蛛通常被归类为垃圾搜索引擎和恶意爬行程序。
其中,百度蜘蛛的真假分析,可以用语法,检查源代码是否是百度的子站点,如果不是,那么它就是百度蜘蛛的伪装。如果你仔细分析,你会发现一些国内或国外的蜘蛛,比如EasouSpider和AhrefsBot,它们都是无用的。如果你面对的市场是国内的,百度百度百度搜索,谷歌谷歌机器人,360 360搜索,搜搜搜狗搜索,搜狗搜狗+网络+蜘蛛,这些蜘蛛爬行就足够了,所有其他的蜘蛛都会被屏蔽,你的静态资源,比如图片,JS和CSS路径,也会被屏蔽。这些资源不需要蜘蛛爬行,因为没有价值可言;如何添加屏蔽?您可以手动创建一个新的robots.txt文件,并将其放在网站的根目录中。
填写如下内容:用户-代理:不允许抓取,这意味着不允许抓取任何页面,其他屏幕可以这样填写;如果你不能填写内容,你也可以去百度站长平台直接生成robots.txt文件,地址是:http://zhanzhang.baidu.com/robots/index,然后把文件更新到网站的根目录下;例如,我检查了日志,发现了一些垃圾蜘蛛,所以我直接去了筛选措施,可以很容易地避免通过筛选不必要的蜘蛛爬行浪费带宽和流量。当然,对于遵循互联网协议的网络公司来说,这是一种非常有效的方法,并且不排除存在一些不遵循行业标准的恶意爬行程序。要禁止这些,只有在证据确凿的情况下直接筛选Ip才能有效。本文是石家庄第一篇SEO:http://www.sjzse.com/113.html's原创不容易,转载时请注明出处。

站长必知基础(一):如何阻止垃圾蜘蛛的抓取