网站怎么彻底屏蔽拦截搜索引擎蜘蛛爬虫抓取
做网站优化的站长都知道,网站上线后,网络上会有很多的搜索引擎蜘蛛爬虫会访问我们的网站。这些搜索引擎蜘蛛爬虫中既包括了百度、360、谷歌等主流搜索引擎的蜘蛛,也会有大量垃圾搜索引擎蜘蛛爬虫。
这些垃圾搜索引擎蜘蛛爬虫不但不会给我们网站带来任何流量,而且还会严重增加网站服务器的压力,造成服务器CPU使用率超高,降低网站的打开速度。这时我们需要屏蔽某些搜索引擎蜘蛛爬虫访问。
常用的屏蔽搜索搜索引擎的方法是通过ROBOTS文件来屏蔽。如下:
User-agent: SemrushBot
Disallow: /
这种屏蔽方法只能屏蔽那些遵守协议的搜索引擎,有些是不遵守就对它们无效了。下面介绍一种彻底屏蔽某些搜索引擎蜘蛛爬虫访问的方法。
找到自己主机根目录下的规则文件.htaccess(如果没有,可以手工创建.htaccess文件到站点根目录)
<IfModule mod_rewrite.c>
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]
RewriteRule !(^robots\.txt$) - [F]
</IfModule>
如果不想某些蜘蛛抓取就将这些蜘蛛名称写进去即可。
注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可
附各大蜘蛛名字:
- google蜘蛛:googlebot
- 百度蜘蛛:baiduspider
- 百度手机蜘蛛:baiduboxapp
- yahoo蜘蛛:slurp
- alexa蜘蛛:ia_archiver
- msn蜘蛛:msnbot
- bing蜘蛛:bingbot
- altavista蜘蛛:scooter
- lycos蜘蛛:lycos_spider_(t-rex)
- alltheweb蜘蛛:fast-webcrawler
- inktomi蜘蛛:slurp
- 有道蜘蛛:YodaoBot和OutfoxBot
- 热土蜘蛛:Adminrtspider
- 搜狗蜘蛛:sogou spider
- SOSO蜘蛛:sosospider
- 360搜蜘蛛:360spider