您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
如何入门Python爬虫?
爬虫,网页,入门如何入门Python爬虫?
发布时间:2019-02-08加入收藏来源:互联网点击:
回答于 2019-09-11 08:43:50
1、网页的基本知识:
基本的HTML语言知识(知道href等大学计算机一级内容即可)
理解网站的发包和收包的概念(POST GET)
稍微一点点的js知识,用于理解动态网页(当然如果本身就懂当然更好啦)
2、一些分析语言,为接下来解析网页内容做准备
NO.1 正则表达式:扛把子技术,总得会最基础的:
NO.2 XPATH:高效的分析语言,表达清晰简单,掌握了以后基本可以不用正则
参考:XPath 教程
NO.3 Beautifulsoup:
美丽汤模块解析网页神器,一款神器,如果不用一些爬虫框架(如后文讲到的scrapy),配合request,urllib等模块(后面会详细讲),可以编写各种小巧精干的爬虫脚本
官网文档:Beautiful Soup 4.2.0 文档 参考案例:
No4. JSONpath
抓包类的爬虫(通常是动态网页),往往需要json的加持。jsonpath便应运而生,和xpath一样,它是快速检索分析各种各样json文件中待抓取内容的重要方法。
更多官方文档看此:JSONPath - XPath for JSON
如果看到这里你已经有明确方向了,那么恭喜你入门了!如果还有什么不明白的同学可以私信问我呢
回答于 2019-09-11 08:43:50
这个要看个人的吧
从我个人来看,我基本上一点书都没看过,当然跟看书犯困没啥关系,主要是想睡觉。。
我基本上都是通过看python的视频 + 对python的兴趣来学习的,学习任何一门语言,或者技术,你得先找个你觉得顺眼的项目或者东西,从它入手,这样你才会有兴趣去深入了解,否则你一定坚持不下去。
有了兴趣,接下来就是一些基础的东西,什么类啦,函数啦,方法啦,形参,实参,面向对象,多肽,继承,封装都是其次,主要还是你对这个项目的原理是否掌握,实现过程反而是其次,语言不过是工具而已,用啥都一样,擅长领域的问题。
当你研究透彻你所感兴趣的那个项目或者事物后,你自然而然也就入门了。
回答于 2019-09-11 08:43:50
先花一点时间看python基础,过一遍就行。然后看这本书 《Python网络数据采集》,然后随便写两个试试,你就入门了,如果研究这本书更深一点,你就可以做很多事了
回答于 2019-09-11 08:43:50
Python爬虫必须掌握的核心能力:
1.掌握各类HTTP调试器用法
2.理解网络爬虫编写的基本套路
3.了解网络爬虫编写的各种陷阱
4.能够应对动态网站爬取
5.能够应对带有验证码的网站
6.能够应对需要浏览器渲染的网站
7.能够应对分布式抓取需要
8.能够应对反爬虫技术
9.能够应对无界面抓取
10.能够利用爬虫平台
上一篇:七代i7-7500u,八代i5-8250u,哪个好?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |