中国互联网乱象:robots.txt禁止仍采集 360搜索索引百度知道贴吧百度搜索抓取淘宝

3B大战的后果:360用户在奇虎问答提问“电脑进不了贴吧,总在‘百度一下 你就知道’是怎么回事?”。
可怜3个人都不知这是因为是从360进入的百度贴吧。说来也怪,百度页面顶端应该有“点击这里继续访问您选择的百度贴吧结果>>”提示,何故竟未能发现,太白?
3B大战的后果:360用户在奇虎问答提问“电脑进不了贴吧,总在‘百度一下 你就知道’是怎么回事

百度早已声明,不准奇虎360搜索索引其旗下产品,如百度知道、贴吧,可看起来,360搜索照样采集不辍,世上有这么脸皮厚的海外上市公司流氓吗?
百度似乎早已声明,不准奇虎360搜索索引其旗下产品,如百度知道、贴吧,可看起来,360搜索照样采集不辍

百度旗下产品robots.txt确实禁止了360搜索抓取。如百度知道禁止百度Baiduspider、谷歌Googlebot、微软MSNBot、有道YoudaoBot、搜狗Sogou web spider、即刻JikeSpider、搜搜Sosospider外的所有搜索引擎蜘蛛爬行,也就定然禁止360搜索360Spider抓取了。
百度旗下产品robots.txt确实禁止了360搜索抓取。百度Baiduspider、谷歌Googlebot、微软MSNBot、有道YoudaoBot、搜狗Sogou web spider、即刻JikeSpider、搜搜Sosospider

淘宝网的Robots明确单单禁止了百度Baiduspider抓取,但目前可以百度到淘宝相关结果数7,370,000个。这倒是形象地表明:百度、360都是不守规则的流氓。
淘宝网的Robots明确单单禁止了百度Baiduspider抓取,但目前可以百度到淘宝相关结果数7,370,000个

淘宝旗下的一淘搜索也不干净,京东明确禁止一淘蜘蛛,但一淘还是索引的京东。

http://www.360buy.com/robots.txt
User-agent: *            
Disallow: /?*    
Disallow: /pop/*.html       
User-agent: EtaoSpider  
Disallow: /        

http://web.etao.com/search?q=site:360buy.com
找到”site:360buy.com”相关的网页共31722159篇

看起来,可能每家搜索都不干净!

★相关网络文章

于国富:360搜索违反协议抄袭百度涉嫌违法
2012-08-30 09:03:00 来源: TechWeb.com.cn(北京) 
律师于国富说,搜索引擎作为互联网上一种较为成熟的应用和主要流量入口,遵循着一些国际通行的行业规则。几乎所有网站都会通过一个robots.txt协议来自主控制是否愿意自身内容被搜索引擎收录,以及允许哪些搜索引擎收录,并且指定自身可供收录和禁止收录的内容。同时,搜索引擎会自觉按照每个网站robots协议给予自己的权限来进行抓取。作为国际惯例,包括百度、谷歌、雅虎在内的搜索引擎都会遵循这一协议。【错误:百度也不遵守!】于国富指出,360抓取百度搜索结果进行处理展示,除违反Robots国际规则之外,还可能存在着多种权利的被侵犯。
网易 > 网易科技 > 网易科技 > http://tech.163.com/12/0830/09/8A56SMR200094MOK.html

 

腾讯搜搜辟谣:360指责百度违规抓取腾讯内容不实
2012年08月31日17:12 来源:Donews
继一位百度工程师措辞犀利的指责360搜索引擎不顾非法行业通行Robots规则之后,360搜索引擎官方微博随即发布了腾讯旗下视频站点被百度搜索引擎恶意抓取的微博。

  360搜索引擎在其官方微博中称,虽然腾讯视频频道在Robots协议中设置了禁止所有搜索引擎的爬虫抓取,而百度则不顾通行协议对腾讯视频频道进行了网页抓取并索引。

  对此,百度公司工程师解释道,“搜搜视频自2010年11月3日设置robots.txt协议,限制搜索引擎spider访问video.soso.com。百度spider从搜搜视频robots设置之日起未再抓取该站内容,完全遵守robots协议。不像360,百度已经明示不许抓取,还换着马甲来强抓。

  腾讯公司旗下搜索引擎腾讯搜搜官方微博也进行了转发,并对百度工程师所言表示了认可,至此,腾讯公司旗下搜索引擎也正式加入了360与百度公司的互掐混战。
和讯网 > 科技 http://tech.hexun.com/2012-08-31/145356307.html

 

百度大战360 2012-8-29 9:30:26
 Robots协议之争
  除了代理商搅局之外,昨日,百度工程师也发文章指责,360搜索恶意违反Robots协议,据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索无视这种设置,擅自实施抓取行为。
  不过随后,360搜索反击称百度也存在抓取Robots协议禁止访问页面的情况,例如淘宝网就屏蔽了百度爬虫,但百度依旧收录了淘宝网的内容。
http://www.williamlong.info/archives/3204.html

7月29日百度违背robots协议大面积收录淘宝
时间:2012-08-10 11:08来源: 发布人:cxm888
最近这两天,百度更新后,悄然声息的改变了算法,很多人的网站没有任何任何预兆的被降权,很多关键词以前排名很好的,也在百度搜索结果下无影无踪。 当大家都在总结分析百度此次的改变方向时,有新人发现,百度竟然开售收录淘宝网了,话不多说,有图为证:
http://www.supadmin.com/xinwen/20120730161899.shtml
【此文说明百度重新抓取淘宝是最近几月的事件!】

优酷土豆为什么不像淘宝那样用 robots.txt 把百度禁掉来培养用户使用搜酷?
http://www.zhihu.com/question/20525546
【此文说明淘宝为什么胆敢拒绝百度:因为“买东西 上淘宝”】

图解百度与淘宝关于robots屏蔽上的那件事
作者:天酬网络    来源:    发布时间:2012-2-24 17:49:39    人气:
  在08年闹得沸沸扬扬的关于淘宝使用robots协议屏蔽百度蜘蛛的事件,想必有经历过那个事件的人现在还记忆犹新,淘宝以有不良的商家会通过百度的进行竞价排名或者搜索引擎优化的方式来欺骗消费着的原因,无情的拒绝了百度的搜索引擎,而通过的方法就是使用robots协议屏蔽百度。如下图所示。
我们可以看到,淘宝已经在robots中拒绝了百度蜘蛛对整个站点的索引与收录。事件已经过去四年左右了,那结果真的就是百度无法抓取淘宝的页面吗?事实是,百度并没有遵守robots协议,还是对淘宝的部分页面进行了抓取。如下图所示。
上图我们可以发现,淘宝的很多页面还是依然被百度抓取着。对于百度为什么要不遵守robots协议,执意进行淘宝页面的抓取呢?笔者认为这是一个战略方向的问题,我们都知道目前淘宝是目前国内互联网上最大的电子商务平台,其起着举足轻重的地位。我们继续查了一下,在淘宝上出名的店铺,如韩都衣舍在百度上也有不错的排名。注意证明百度对与淘宝的关注度。同时我们发现淘宝近期才把名字改成天猫的淘宝商城同时也屏蔽了百度,如下图所示。
结果是一样的,天猫依然被抓取了。
  对于这种结果的原因还有一点就是可能是因为天猫的权重太高,于是乎百度打破协议进行索引抓取。
  另外一个不准守协议的就是一淘网,有关注电子商务站点资讯的人就应该知道,京东商城,新蛋网等也有通过robots进行对一淘网的屏蔽,如下图所示。但是我们依然可以在一淘中找到这些站点的相关页面。笔者认为国内的互联网目前还处于一个相对混乱的模式,很多企业都不遵守相关的协议,这是值得我们进行反思的,笔者认为作为一个互联网的巨头,应该从自我做起来起到一个互联网行业的榜样作用。
http://www.0519info.com/Info/View.Asp?id=639

作者: 辛德林记

QQ 105438493

《中国互联网乱象:robots.txt禁止仍采集 360搜索索引百度知道贴吧百度搜索抓取淘宝》有4个想法

  1. 百度为什么收录淘宝揭密|新90博客by 黄鑫远 on 七月 8, 2012第二种说法是,robots.txt不具有绝对的规范,搜索引擎有时候会通过外接进入网站,并且将其收录,不过读取robots.txt时,百度蜘蛛会发现此网站不允许,所以搜索引擎将不会将其内容保存在快照里。而且,我也正好发现,所有的淘宝被收录页面的快照内容都是空的。并且百度也提醒,所查询关键词仅在网页标题或指向此网页的链接中出现。(如下图)因此,个人认为,robots.txt只是禁止收录内容及描述,但网页链接及title还是能够被百度所收录的。http://www.new90.net/64.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据