有时候我们在分析日志的时候,会发现很多的ip,有些ip是用户访问ip,有些是搜索引擎蜘蛛ip,还有其他等;我们做网站优化的时候,要怎么分析判断哪些IP是百度蜘蛛?它不同的IP段又代表什么含义呢?
首先打开日志,查看ip地址后面的参数可以发现是否为百度蜘蛛。
有些刚入门不久的同学肯定要问:这些ip地址到底代表什么含义,是不是不同的ip地址所代表的含义不一样呢?对权重和抓取是否有影响?哪些是无效的蜘蛛,哪些是站长工具的蜘蛛,那些又是百度自己真正的蜘蛛?
也许有时候不方面调取日志,我们获取到IP后,可用用另外一种方式判断这个蜘蛛是否是百度蜘蛛?
在这里,我教大家一个方法。 电脑上,点开始 ->运行 -> cmd -> nslookup 【ip】看name值。 如判断ip地址123.125.71.95,如下图:
很明显看出是百度的蜘蛛。
如判断ip地址61.147.98.146,如下图:
显示不是百度蜘蛛。
这个只要看nslookup出来的name值。没有的话就不是百度蜘蛛,有百度字样的,就是百度蜘蛛。
那么,不同的百度蜘蛛,它的功能和作用是什么呢?以下是搜集于互联网的,大家可以作为一个参考.
百度蜘蛛 | 功能说明 |
---|---|
60.172.229.61 | 蜘蛛来访,准备抓取网页内容 |
61.129.45.72 | 蜘蛛来访,准备抓取网页内容 |
61.135.162.* | 蜘蛛来访,准备抓取网页内容 |
61.135.165.134 | 百度竞价蜘蛛 |
117.34.74.66 | 百度竞价蜘蛛 |
118.122.188.194 | 百度竞价蜘蛛 |
119.63.196.9 | 百度竞价蜘蛛 |
125.39.78.185 | 百度竞价蜘蛛 |
61.135.186.* | 百度联盟蜘蛛、百度统计蜘蛛 |
61.147.98.146 | 站长工具模拟百度蜘蛛 |
61.188.39.16 | 站长工具模拟百度蜘蛛 |
113.98.254.245 | 站长工具模拟百度蜘蛛 |
117.21.220.245 | 站长工具模拟百度蜘蛛 |
117.28.255.42 | 站长工具模拟百度蜘蛛 |
124.248.34.52 | 站长工具模拟百度蜘蛛 |
125.90.88.* | 站长工具模拟百度蜘蛛 |
119.147.114.213 | 站长工具模拟百度蜘蛛 |
121.10.141.* | 站长工具模拟百度蜘蛛 |
123.15.*.* | 百度图片蜘蛛 |
123.125.71.* | 抓取网站内页收录,质量不高,暂时不会放出来 |
159.226.50.* | 考察蜘蛛(很大可能是降权蜘蛛) |
180.76.5.* | 考察蜘蛛(很大可能是降权蜘蛛) |
180.76.5.87 | 考察蜘蛛(很大可能是降权蜘蛛) |
220.181.158.107 | 考察蜘蛛(很大可能是降权蜘蛛) |
183.91.40.144 | 新站不正常情况下的蜘蛛 |
203.208.60.* | 新站不正常情况下的蜘蛛 |
210.72.225.* | 打酱油的百度蜘蛛 |
123.125.68.* | 如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。 |
218.30.118.102 | 如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。 |
220.181.68.* | 如果发现下面这几个ip段每天只增不减的话,那就很危险了,很有可能会进入沙盒或者有被K站的现象。 |
123.125.66.* | 代表百度蜘蛛IP来过了,准备抓取你网站上的东西! |
220.181.7.* | |
121.14.89.* | 百度蜘蛛作为度过新站考察期的一个ip段 |
220.181.108.95 | 此ip段爬过的文章或首页正常情况下基本在24小时都会放出来 |
220.181.108.92 | 此ip段爬过的文章或首页正常情况下基本在25小时都会放出来 |
220.181.108.91 | 此ip段爬过的文章或首页正常情况下基本在26小时都会放出来 |
220.181.108.75 | 此ip段爬过的文章或首页正常情况下基本在27小时都会放出来 |
123.125.71.95 | 抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。 |
123.125.71.97 | 抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。 |
123.181.108.77 | 抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。 |
123.125.71.106 | 抓取内页收录的,权重相对比较低,爬过此段的内页文章不会很快被放出来,因它怀疑不是原创文章或者怀疑是采集来的文章。 |
220.181.108.89 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 0就代表网站未更新 |
220.181.108.94 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 1就代表网站未更新 |
220.181.108.97 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 2就代表网站未更新 |
220.181.108.80 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 3就代表网站未更新 |
220.181.108.77 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 4就代表网站未更新 |
220.181.108.83 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 5就代表网站未更新 |
220.181.108.86 | 专用抓取网站首页的,也属于权重段,一般返回代码304 0 6就代表网站未更新 |