您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
学的Python,爬虫没学好,数据分析还得用爬虫,怎么办?
爬虫,数据,你的学的Python,爬虫没学好,数据分析还得用爬虫,怎么办?
发布时间:2019-02-08加入收藏来源:互联网点击:
爬虫是python学习中比较简单的一环。
以个的学习经验来看,爬虫的逻辑十分简单。也不需要太高深的算法。
python以个人经验来看根据head主要分为二个方面:
一、自带的请求库。如,urllib。
二、基于浏览器。如,selenium。
由于不同网站对爬虫的容忍度不同,所以对head不同,这就要区别对待,同样网站对同IP的请求容忍也不同,这就要有换IP的策略。
爬虫可以说是爬虫和数据源之间的对抗,除非你有现成的接口。所以要写一个稳健的爬虫更多数据源的测试是必不可少的。
采集下来的数据库下面就是对数据的清洗了,这样的库有很多有xml,beautifulsoup.
结构话的数据以后还要进行数据的去重,我个人用的是Simhash,当然你个人应用场景不同,去重的策略也不同。
除了自己写的爬虫以外,当然也可以学习现成的库,我自己用比较顺手的是scrapy。目前还在运行中。
个人感觉爬虫还是比较简单的,逻辑简单,算法明晰,学习成本并不高。祝你好运。
回答于 2019-09-11 08:43:50
针对问题做定制的爬虫就好,不必增加心理负担,非要学一个大而全的通用框架。
个人感觉实战的时候去搜需要的工具就好了,比如抓网页用urllib,解析网页可以用beautifulsoup等等
python的工具网上有很多,现用现搜就行了
回答于 2019-09-11 08:43:50
赶紧再学啊,有库,书籍也丰富,用起来不难!
回答于 2019-09-11 08:43:50
不用想那么复杂,对于编程人来说都是一理通百理通,爬虫你就学scrapy分布式爬虫框架,网上找一套视频教程,狠学一个星期,就能写出爬虫来,至于那些反爬虫对策可以在以后的实战中慢慢积累经验。
回答于 2019-09-11 08:43:50
Python语言的语法是基础,只有把编程语言的语法和数据结构基础学好,才能胜任各种编程工作。至于网络爬虫,只是编程问题的一个具体应用。你的爬虫之所以没选好,问题的关键还是在于你的编程基础比较差,解决问题的能力还是需要提高。爬虫,有简单的也有复杂的算法,你可以先学习简单的算法来获取少量的数据,只要能解决基本的任务要求就可以了,不一定非要达到搜索引擎的技术水平。
上一篇:没有资产怎么向银行贷款?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |