您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
我是小白,想学爬虫、js,有什么好的建议吗?
爬虫,网页,都是我是小白,想学爬虫、js,有什么好的建议吗?
发布时间:2019-02-08加入收藏来源:互联网点击:
我是小白,想学爬虫、js,有什么好的建议吗?
回答于 2019-09-11 08:43:50
回答于 2019-09-11 08:43:50
什么是爬虫
爬虫是一个很有意思的东西,对个人而言,我们可以通过爬虫,获取我们感兴趣的内容,包括文字小说,图片,视频,对企业来说,我们可以通过爬虫,获取行业有价值的信息,假如我们从事淘宝客,我们可以通过爬虫,API调用等方式,及时,迅速,大批量的获取推广链接商品等,其实说了这么多,爬虫就是通过程序的方式,替代人工操作的复杂性,自动高效的完成任务。
爬虫需要什么前置基础
要回爬虫,首先得明白我们的操作对象是谁,显然,我们爬虫的对象是浏览器,网页。正所谓知己知彼,方能百战不殆,我们需要了解浏览器,网页,因此建议开始学习爬虫的新人先学习html基础,包括标签,样式等,这是最重要的,其次可以了解了解css和js
爬虫框架选择
nodejs+cherrio
如果你是选择使用js技术线路爬虫,我们可以使用nodejs发送请求获取爬虫目标网站信息,cherrio用来解析dom获取我们想要的数据
python+selenium+chromedrive
如果我们使用python技术路线,我们可以使用python调用selenium提供的模拟浏览器的接口,来获取我们想要爬目标网站的信息
python+scrapy
当然,使用python爬虫,我最推荐大家使用scrapy来开发,丰富的模拟爬取接口,简易的爬取数据处理,就可以将数据写入数据库了。
我是kyeteo码上闲谈,关于爬虫的介意就说到这里了,大家如果有什么问题或者在编程方面有啥困难,关注我,为您一一解答,kyeteo带你玩边前端,后端,数据库。
回答于 2019-09-11 08:43:50
你这是想用js做爬虫么 ?
可以先自己用简单的js+html看样例做下网页,了解一下前端网页的技术,比如ajax,css selector,html各种标签和属性,以及常见的一些翻页形式。
等到你会使用js的时候,就可以尝试着把网页的数据解析出来。
如果你要把js用到爬虫上,可以使用浏览器插件的形式,这样你就可以把js注入到别人的网页上,然后通过js解析出网页数据,弄的好的话呢,可以跨网页抓取数据。
你也可以使用插件 WebScraper,它就是一个基于js的爬虫工具,并且绝对免费,你只要学会了上面那些技术之后应该会毫无压力。
另外还有其它的几款这样的插件也推荐你体验一下:
爬虫学起来简单,但是学精的话不容易,需要去了解各种各样的反爬手段,这个需要实际去锻炼,去了解。
回答于 2019-09-11 08:43:50
别学爬虫了,我朋友刚进去。
回答于 2019-09-11 08:43:50
爬虫和js(前端)都是互联网当前比较火的两个领域,笔者根据自己观点进行分析下:
爬虫:简单地说就是用代码发送请求获取网页信息让他进行解析获取自己想要的数据,爬虫入门很容易。但是想要深入真的很难。当然爬虫的惯用语言通常是python因为python把一些库封装的精巧易用,这也得益于python的语言特性。但是你千万不要拿python跟爬虫画等号。其实爬虫到后面跟更多相关的事js而不是其他编程语言。因为各大网站保护数据,有的限制ip,有的限制cookie,还有各种加密,验证码。在js客户端执行,一层有一层的混淆嵌套。。。你需要的就是强大的js水平和代码分析能力。你要通过巨大的生涩代码去剥开它的真面目。往往这段时间是最难的。而搞懂规则用python或者java写很容易。
另外,如果有兴趣可以把爬虫当成副业,娱乐学习。教程的话建议不买书。因为网站更新太快书很容易过时。可以买套教程入门后找csdn,博客园,头条等跟着一些爬虫博主学习。并且有问题也可以留言问他们。
js:这两年是真的火热。以前的jquery不声不响。知道vue,react,ag三个js框架流行。因为js不仅可以统治pc,也可以涉足移动端。你看头条app,淘宝,京东这些很大一部分都是html+js的视图。并且前端工程师现在市场比较稀缺,也很火爆,对于学习来说。现在的js学习成本可能比较高。要node.js。npm这些都要学。但是专业性也强了很多(主要后端不像以前会点jquery就能全栈了)。薪资也还可以。推荐腾讯云技术社区。前端内容比较多。
另外,对于学习,头条,csdn,博客园,微信公众号,知乎等等都是不错的社区。里面有大量你需要的知识。不过需要你自己挖掘你需要的罢了!
上一篇:海洋里刚出生的小鱼是怎么生存的?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |