您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
url过滤怎么破解(如何关闭url过滤)
规则,数据,内容url过滤怎么破解(如何关闭url过滤)
发布时间:2019-02-08加入收藏来源:互联网点击:
很多朋友想了解关于url的一些资料信息,下面是小编整理的与url相关的内容分享给大家,一起来看看吧。很多朋友想了解关于网页抓取的一些资料信息,下面是小编整理的与网页抓取相关的内容分享给大家,一起来看看吧。
【摘要】计算器SPL支持网页数据捕捉。根据抓取定义规则,可以将网页数据下载到本地进行统计分析。要明确具体规则要求和使用细节,请到干部学院:计算器SPL抓取网页数据!
网站上的数据来源是我们统计分析的重要信息来源。当我们浏览网页,看到自己感兴趣的数据内容时,希望能够快速抓取网页上的数据,这是极其重要的,也是数据分析的必备技能之一。而网络数据抓取大多需要复杂的编程知识,操作比较复杂。本文介绍了如何使用计算器SPL快速抓取网页数据。
1、基本流程图2、抓取网页数据接口3、定义规则A、web_infoB、init_urlC、help_urlD、target_urlE、page_urlhttp://www . Sina . com/http://www . Sina . com/http://www . Sina . com/http://www . Sina . com/http://www . Sina . com/http://www . Sina . com/http://www .新浪网/
4、抓取股票历史数据
从给定的起始地址开始遍历,将解析过滤后的URL放入下载地址队列,分为URL页面help_url和下载页面target_url。URL页面只收集URL,下载页面可以收集URL并提取数据,保存提取的数据。抓取网页数据,直到遍历地址为空,抓取工作结束。
5、用户自定义程序_抓取(jsonstr)是抓取web数据的接口,参数JSON STR是一串定义好的规则。在抓取数据时,它会根据定义的规则遍历URL、下载、提取和保存相关内容数据。这个接口依赖于计算器的外部库webcrawlCli。默认情况下,它安装在计算器软件的ESPROC \ EXTLIB \ WECRAWLCLI路径下。检查计算器外部库设置中的WECRAWLCLI项目。重启计算器后,可以使用web_crawl界面。
web_crawl的简单用法,比如抓取指定的股票数据,SPL脚本demo.dfx:
获取股票代码600000的数据文件:
A、数据提取程序接口
根据B数据保存程序接口,的基本流程图,定义规则分为五个部分:网站信息、初始网站地址、网站页面、下载页面和数据抽取。具体如下:[{ http://www . Sina . com/{ domain : ' www . banban . cn ',save _ path 3360 ' d :/tmp/data/web magic ',thread _ size 33602,cookie:{name:"jacker ",laster: " 2011 " },user _ agent : ' Mozilla/5.0(X11;UbuntuLinux x86 _ 64RV :39.0)Gecko/2010 01 01 Firefox/39.0 ' } },{C、数据提取程序样例[' _ cybs . html https://www . banban.cn/gupiao/list ',' _ sh . html https://www . banban.cn/gupiao/list ']},{D、数据保存程序样例[' gupiao/list _(sh | SZ | cyb)\。html ','/shujv/张婷/','/agu/$']},{E、自定义程序的使用{ reg _ URL : '/agu/365 \ d ' },{1、基本流程图{ filter : ' gupiao/list _(sh | SZ | cyb)\。' html ',reg_url:'gupiao/[sz|sh]?
(60000\d)/’,new_url:‘http://www.aigaogao.com/tools/history.html?s=%s’}},{page_url:{filter:‘history.html\?s=\d{6}’, extractby: “//div[@id=‘ctl16_contentdiv’]/”}},{page_url:{extractby: “//div[@id=‘content_all’]/”}},{page_url:{filter:‘/agu/365\d’, extractby: “//div[@id=‘content’]/”}}]规则简要说明:web_info:网站信息, 根据要下载的网站,设置域名、本地存储位置、用户代理信息、用户自定义程序等相关的信息。init_url:初始网址, URL 遍历的入口网址。help_url:网址页, 定义网址页规则,收集网页内容中的 URL,但不提取此页面数据内容。target_url:下载页, 定义下载页规则,收集网页内容中的 URL,同时也提取此页面的内容。page_url:提取数据, 定义页面内容提取规则,在下载页 target_url 中根据此规则提取内容。
注意: json 书写结构细节,节点 {} 中的 [] 表示 list 列表,节点 {} 中的 {} 表示 map 键值结构,书定时要注意,否则书写不对易引起解析错误。
定义规则说明
A、web_info设置要下载的信息,内容包括:domain:设置域名。save_path:文件存储路径。user_agent:指用户代理信息。 作用: 使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。sleep_time:抓取间隔。cycle_retry_times:重试次数。charset:设置编码。use_gzip:是否为 gzip 压缩。time_out:抓取超时设置。cookie_name:cookie 信息,键值结构。thread_size:抓取时线程数。save_post:是否要为存储的文件名称追加编码串,以防网名文件被覆盖,缺省值为 true。如 books/a.html, music/a.html, 都是要下载的页面,保存时若此参数为 true, 则存储文件名分别为 a_xxxcgk.txt,a_xabcdw.txt,文件不会被覆盖;若为 false, 保存文件名为 a.txt, 后存储的就会将已存在的同名文件覆盖。class_name:用户自定义的存储类。class_argv:传递给 class_name 类的字符串参数。
B、init_url初始的 URL。为 List 列表结构,可设置多个 URL.
C、help_url网址页主要是定义要收集的 URL 过滤规则, 符合规则的 URL 会被加入下载网址队列,但是不会提取其具体内容。过滤规则支持正则表达式,如:gupiao/list_(sh|sz|cyb)\.html 表示 URL 中只有包括字符串 gupiao/list_sh.html、gupiao/list_sz.html、gupiao/list_cyb.html 链接才能通过。为 List 列表结构,可定义多个规则。
D、target_url下载页是要抓取内容数据的 URL,需要从这个页面里提取内容。若此 URL 符合 help_url 过滤规则,那么也会在本页面中收集 URL。约定定义规则格式:{target_url:{filter: pageUrl, reg_url:urlRegex, new_url:newUrl}},表示在符合 pageUrl 条件的页面中,找出符合 urlRegex 条件的 href 链接,若 newUrl 定义了,则可与 urlRegex 过滤结果组合成新的 URL。例如在页面中找到链接 a_100.html 符合过滤条件 reg_url=a_(\d )\.html, 则有 newUrl=b_%s.php, 那么 urlRegex 过滤 a_100.html 的结果为 100, 将与 newUrl 合并,新的下载页为 b_100.php。其中 filter 表示定义过滤的 URL 规则;若无此定义,表示所有的 target_url 都要用此规则。reg_url 表示要收集的 URL 规则,必写;无 reg_url 的 target_url 规则则无意义。new_url 表示定义新的页面,需要与 reg_url 过滤结果结合成新的 URL。
举例说明:3.1 定义规则:{target_url:{filter:‘gupiao/list_(sh|sz|cyb)\.html’, reg_url:‘gupiao/([sz|sh]?6000\d{2})/’,new_url:‘http://www.raqsft.com/history.html?s=%s’}}在下载页 gupiao/list_sh.html 中包含如下内容:
包钢股份 (600010)四川路桥 (600039)保利地产 (600048)下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |