您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
网络爬虫是干什么的,在哪能学习?
爬虫,网络,网页网络爬虫是干什么的,在哪能学习?
发布时间:2016-12-08加入收藏来源:互联网点击:
什么是网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据爬虫可以做什么?你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。爬虫的本质是什么?模拟浏览器打开网页,获取网页中我们想要的那部分数据浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。
那怎么学习呢,首先需要一点Python的基础,需要了解HTML+CSS,会用Firebug分析网页需要了解一点网络通信,会抓包分析网络请求学习使用urllib库访问网站(推荐学习使用requests库)学习写正则表达式学习使用beautifulsoup库。
推荐您使用Chrome这款工具,Chrome是爬虫最基础的工具,一般我们用它做初始的爬取分析,页面逻辑跳转、简单的js调试、网络请求的步骤等。我们初期的大部分工作都在它上面完成,打个不恰当的比喻,不用Chrome,我们就要从现代倒退到几百年前的古代!
以上就是我对您问题做出的解答。欢迎在评论区提出不同的观点。
回答于 2019-09-11 08:43:50
概述
一句话,网络爬虫就是模拟真人访问网络的操作,自动访问互联网上的网页,并进行数据提取和分析的工具。
网络爬虫,也叫网络机器人。是一种从互联网抓取数据信息的自动化程序。主要的作用是代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。
网络爬虫可以对网络上的数据信息进行自动采集,例如,搜索引擎使用网络爬虫对Internet中的网站进行爬取收录,收集到的数据可以用来进行数据分析与挖掘。除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。同时,网络爬虫可以在抓取过程中进行各种URL地址去重、异常处理、错误重试等操作,确保爬取持续高效地运行。
网络爬虫的分类
网络爬虫常分为通用爬虫和专用爬虫。
通用爬虫是捜索引擎抓取系统的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份;
专用爬虫主要为某一类特定的人群提供服务,爬取的目标网页定位在与主题相关的页面中,节省大量的服务器资源和带宽资源。比如要获取某一垂直领域的数据或有明确的检索需求,此时就需要过滤掉一些无用的信息。
工作原理
网络爬虫可以根据我们提供的信息从网页上获取大量的图片、文字或表格,那么,它的工作原理是什么呢?
爬虫的工作流程为:获取网页 \u003e 分析源代码 \u003e 提取信息。
首先,网络爬虫构造一个请求并发送给服务器,服务器接收到请求并返回指定的网页。
其次,网络爬虫基于HTML的基本格式,对返回的网页进行分析和有用信息提取。比如,标签内就是URL信息等等。对于复杂的字符串,最通用的方法是采用正则表达式进行匹配。
最后,将提取到的信息保存在数据库中,用于后续的分析等操作。
回答于 2019-09-11 08:43:50
网络爬虫就是自动抓取网页信息的代码,可以简单理解成代替繁琐的复制粘贴操作的手段。
优就业有相应课程,可以去看看是不是你需要的
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |