您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
python爬虫怎么做?
爬虫,数据,图片python爬虫怎么做?
发布时间:2016-12-08加入收藏来源:互联网点击:
因为爬虫这种技术,既不需要你系统地精通一门语言,也不需要多么高深的数据库技术,高效的姿势就是从实际的项目中去学习这些零散的知识点,你能保证每次学到的都是最需要的那部分。
当然唯一麻烦的是,在具体的问题中,如何找到具体需要的那部分学习资源、如何筛选和甄别,是很多初学者面临的一个大问题。
回答于 2019-09-11 08:43:50
爬虫实际就是自动化的去做网络后获得想要的数据。
做网络爬虫通常可以用Python、Java、C等,甚至有人用Go和Nodejs等做爬虫,语言并不是最重要的,爬取理念并实现(即怎么爬到)才是重要的,只是Python开发快,符合做爬虫快速开发的需求且生态较好所以更多人使用。
下面讲讲我自学爬虫后总结的方法:
1.首先是网络请求,大致会了解使用到http、https协议,请求方法大致为GET/POST/PUT/HEAD/DELETE等,而Python中会使用到默认库如urllib,而使用久了会发现并不pythonic,所以你会发现一个非内置却胜似内置的requests,自动化测试用的selenium等。紧接着你会需要格式化你要的文本,例如json、正则re、dom解析beautifulsoup、xml及xpath等;
2.取得数据后你会考虑让数据落地操作,这时候会考虑redis、mq、kafka等队列及缓存系统亦或常见如MySQL、Oracle、sqlite、mongodb、hbase、elasticsearch等数据库;
3.而在这移动时代,你会发现你开始需要的数据不止在PC端,还在手机端,APP端,因此你开始需要尝试抓包软件(中间人攻击),如fiddler、阿里的Anyproxy、Python的Mitmproxy等,并采用Appium、adb、按键精灵等进行模拟操作从而实现自动化,当然你也可以尝试对APP进行反编译等操作;
4.而后你发现你的爬虫爬取速度开始不能满足你的需求,所以你开始学习尝试使用异步、多线程/多进程、分布式,开始使用爬虫框架Scrapy、spider等来爬取一些大同小异的站点;
5.正当你爬的欢愉时反爬虫开始捂住你大笑的嘴,你会碰到 头部信息识别、动态网页、ajax异步请求、JS压缩代码混淆、自定义字体库、验证码、IP封锁(动态代理、拨号代理等)、账号登录(封号)、蜜罐投毒等等五花八门的手段,这时候也只能看谁手段硬了;
6.在与移动端交互中,数据可视化下,你会开始需要使用web框架如Flask/Django/Springboot等写接口,而可视化会用到常见的echarts、D3.js等进行图表渲染;
好了,本次吹水暂时到这里,手机敲字实在是累,所以你还想了解其他的?那就下次再说吧[灵光一闪]
上一篇:根管治疗的费用是多少?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |