首页 seo资讯内容详情

教你在网站日志中快速识别真假百度蜘蛛

2020-06-20 213 86221207

常常听到很多群里的站长们在说百度蜘蛛很疯狂 拼命抓取自己的网站 都快把服务器抓爆了,或者说百度都不来抓取,抓取了也不收录还有很多人想得到百度准确的蜘蛛IP段,封禁假的baiduspider(百度蜘蛛UA)但是据大家所知百度是个大公司服务器IP集群巨大资源,IP随时可能变动,并不能及时准确的加入白名单,那么下面教大家在网站日志中快速识别真假百度蜘蛛!

一、查看爬虫UA(spider User Agent)

User Agent是什么意思?这里给各位介绍下什么是UA


User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。(这条来自百度百科转载过来的)

通俗一点来说user agent就是是用户代理的意思,告诉是什么浏览器,或者什么爬虫访问你的网站,使用*表示任意的访问


教你在网站日志中快速识别真假百度蜘蛛!-第1张图片-咸鱼分类目录


那么了解清楚了UA(spider User Agent)是什么意思后,开始进入正题,如何判断百度蜘蛛的真假,百度有如下的蜘蛛ua头


移动UA:


Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)



Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)


PC UA:


Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)



Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)


程序UA:


Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)


二、双向DNS解析认证

第一步:DNS反查IP


开发者通过对日志中访问服务器的IP地址运行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。


根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:


1).在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。


2).在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。


3).在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。


第二步:对域名运行正向DNS查找


对第一步中通过命令检索到的域名运行正向DNS查找,验证该域名与您日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。


示例1:


> host 111.206.198.69


69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.


> host baiduspider-111-206-198-69.crawl.baidu.com


baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69


教程就这样结束啦~ 谢谢观看 编辑不易,留个评论?哈哈 有其他不懂的知识点可以评论提出来 为你们解答!


免责申明:本站所展示的网站,网址,LOGO,图片等系网友自主提交或自动抓取的结果,不代表本站赞成被显示的内容或立场,如有侵权违规请联系客服处理!

相关标签: # 蜘蛛 # 站长 # 服务器 # 准确 # 百度

 暂无评论,快来抢沙发吧~

发布评论

点击这里联系客服