您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
360百度(360百度翻译)
互联网,协议,搜索引擎360百度(360百度翻译)
发布时间:2016-12-08加入收藏来源:互联网点击:
很多朋友想了解关于360百度的一些资料信息,下面是小编整理的与360百度相关的内容分享给大家,一起来看看吧。
百度和360这两家头部互联网公司,自从360在2012年推出360搜索后就成为直接竞争对手,彼此之间频生摩擦,引发了大量诉讼。
2013年,百度起诉360不正当竞争,索赔1亿元,引起社会轰动。这起纠纷因Robots协议而起,这是互联网网站与搜索引擎的沟通方式,又被称为爬虫协议、机器人协议,各个互联网网站通过设置Robots协议,“告诉”搜索引擎,自己的哪些内容可以被爬取,哪些则不能被爬取。
案件缘起于360搜索上线后,百度并未将其列入Robots协议白名单,因此360搜索无法爬取百度的网站内容。但360搜索越过了Robots协议,抓取了百度百科、百度知道、百度贴吧中的内容,并生成快照向360搜索用户提供。
这起案件在2014年8月7日宣判,百度胜诉,获赔70万元。但案件审理过程中,360提起了一项反诉,称百度利用Robots协议是为了限制360搜索,是为了维护自己的市场垄断地位而设立的竞争壁垒,带有恶意和歧视。
这起反诉的结果是360获胜,法院判决百度构成不正当竞争,向360赔偿20万元。
不过,这场拉锯战可谓旷日持久。在一审判决多年之后,今年7月,北京市高级人民法院才最终做出二审判决,维持原判,驳回百度的上诉。
这起判决的意义已超出“3B大战”的商业争端,而是对互联网搜索业务起到了厘清规则的作用。
“828夜战”打响360搜索引擎于2012年8月16日上线。在此之前,360依靠免费策略彻底改变了互联网安全市场,随后掀起“3Q大战”,让互联网大佬腾讯极为被动。这一次,互联网搜索霸主百度也不免为之虎躯一震。果然,“3B大战”瞬间开打。
据第三方公司Hitwise数据显示,截至2012年8月26日,百度、360、谷歌、搜狗、腾讯搜搜的份额依次为56.44%、10.22%、7.54%、7.14%、4.72%。
也就是说,360搜索引擎上线仅10天,就抢占了搜索市场的十分之一,并让百度丢掉了近6%的市场份额。
一场国内互联网发展史上留名的“828夜战”打响了。2012年8月28日晚上9时左右,百度开始在小范围进行测试:用户通过360综合搜索访问百度知道、百科、贴吧等服务时,将会强行跳转至百度首页。
360随后展开对攻,用户在360浏览器中使用360综合搜索时,点击来自百度相关服务的搜索结果,会被直接带至“网页快照”页面。根据部分页面上提示的时间,这些百度页面的快照,应该是360搜索当日傍晚存储的。
双方采取这些举措的根源就是Robots协议。由于360搜索未被百度列入Robots协议的白名单,360搜索就无法爬取百度知道、百科、贴吧中的海量内容。虽然其时,360搜索宣称“拥有13000多台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量10多亿,引擎索引的优质网页数量超过200亿”。
360搜索越过了Robots协议,直接向用户提供百度网页的快照。当时,百度工程师赵明华在微博中称,“360搜索不顾Robots协议肆意抓取百度数据,是一种不遵守互联网基本协议的行为,对全体网民的隐私和安全都会造成威胁,也破坏网民完整的搜索体验”,直斥360为偷窃数据(小偷)、劫持用户(强盗)、欺骗(骗子)合作伙伴(主要是中小站长)。
什么是Robots协议理解“3B大战”,首先需要理解什么是Robots协议。
Robots协议的英文全称为Robots Exclusion Protocol,直译为机器人排除协议,又可称为爬虫协议、机器人协议,是指网站所有者设置于网站根目录下的一个文本文件,即robots.txt。
为了提高网络用户获取信息的效率,搜索引擎出现,但同时也带来了新问题:
一是网络机器人过快抓取或重复抓取相同的网页内容导致受访网站的服务器过载,影响网站正常运行,降低了抓取的效率;
二是一些网络机器人抓取网站管理后台的内部信息、临时文件、cgi脚本等对网络用户没有使用价值的信息。
这些问题表明,需要建立一种受访网站与搜索引擎的网络机器人之间的交互方式,通过这种方式,网站所有者能够提示网络机器人哪些网页内容没有必要抓取,从而引导其抓取对网络用户有用的信息。
为解决上述问题,荷兰网络工程师Martijn Koster于1994年初首先提出通过在网站的根目录下设置robots.txt文件的方式来提示搜索引擎的网络机器人抓取的范围。
1994年6月30日,一些网络机器人设计者及爱好者在网络机器人邮件组论坛上就Martijn Koster的提议达成一致意见,并形成了一个书面文档《机器人排除标准》(《A Standard for Robot Exclusion》),其中有如下说明:“它不是一个由标准组织备案的官方标准,也不属于任何商业组织。它没有强制执行力,也不能保证所有目前的或未来的网络机器人将使用它。它是网络机器人的设计者们提供给互联网社区的一个通用工具,能够保护服务器免受网络机器人不必要的打扰。”
若某网站希望禁止任何搜索引擎的网络机器人抓取,该网站的robots.txt文件写法如下:
User-agent:*
Disallow:/
1997年,Martijn Koster向互联网工程任务组(IETF,Internet Engineering Task Force)提交了一份名为《网络机器人控制方法》(《A Method for Web Robots Control》)的互联网草案(Internet-Draft),其中对如何设置robots.txt文件作了进一步的说明。
IETF是互联网领域最具权威的国际组织,其主要任务是制定互联网领域的技术规范,绝大多数互联网技术标准均出自IETF。任何人都可以向IETF提交互联网草案,只有被IETF采纳才会成为行业标准或规范。
然而,IETF至今仍未采纳该草案。
被搁置的争议2014年8月7日,百度起诉360不正当竞争案一审宣判,百度胜诉,获赔70万元。但法院在这起案件中搁置了百度Robots协议拒绝360搜索的合理问题。
(2014年8月7日,百度360不正当竞争纠纷案宣判 来源:北京一中院)
此案中,北京一中院认定,360搜索引擎在网络用户点击原本链接到百度具体网页的搜索结果时,直接链接至奇虎公司网页快照界面,其行为明显已经超出网页快照的合理范围。这种行为构成了不正当竞争。
百度曾请求法院判令禁止360搜索抓取百度网站,但没有得到法院支持。
法院认为:百度在不知晓360提供搜索引擎服务的前提下,没有将360搜索引擎加入其Robots协议的白名单内并无不当。但是在360推出搜索引擎之后,尤其是在双方争议短时间内快速升级,行政机关和行业协会已经积极介入调处,360也明确表示希望抓取原告网站内容的前提下,百度既没有充分阐明如此设置Robots协议的理由,又拒绝修改其Robots协议。
事实上,根据今年7月北京高院作出的判决书披露,当年北京一中院已经就百度Robots协议是否合理留出了余地:“鉴于本案360对于百度将其网站相关栏目设置的Robots协议是否正当已经另行提起诉讼,对于网站服务商或所有者设置Robots协议限制搜索引擎爬虫机器人抓取的合理理由的范围不予评述,留待后续案件中,在双方当事人充分阐明对合理理由的意见后,再行判定。”
“3B大战”延续至今上一篇:决策(管理学决策的四种方法)
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |