url过滤怎么破解(如何关闭url过滤)-周公解梦-零零导航工具

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

url过滤怎么破解(如何关闭url过滤)

规则,数据,内容url过滤怎么破解(如何关闭url过滤)

发布时间：2019-02-08加入收藏来源：互联网点击：

A、gupiao/list_sh.html 符合 filter 条件B、href 串符合 reg_url 条件，将产生 [600010, 600039, 600048]C、过滤结果与 newUrl 生成新的 URL：http://www.raqsft.com/history.html?s=600010http://www.raqsft.com/history.html?s=600039http://www.raqsft.com/history.html?s=600048new_url 中的 %s 为合并字符串的占位符。

3.2 定义规则：{target_url:{reg_url:‘/ gupiao/60001\d’}},

在下载页 gupiao/list.html 中包含如下内容：

href 中符合 reg_url 条件的，则收集到的 URL 为： http://www.xxx.com/gupiao/600010/ 其它两个 href 不符合过滤条件。设置 filter 是为了在过滤后的页面中去收集 URL, 当 help_url 多时，过滤后缩小了范围，提高了效率。 target_url 规则可定义多条，以适应不同的条件。

E、page_url提取数据，主要作用于下载页面内容提取，它表示使用这个抽取规则，将提取到的结果保存。定义此规则参考 xpath 使用说明。它只提取主要内容，但对内容细节还需要 className 类来抽取。约定定义规则格式:{page_url:{filter: pageUrl, extractby: contentReg, class: className }},其中 filter 表示符合过滤条件的 url 规则，若无此定义，表示所有的 target_url 都要用此规则。extractby 表示页面内容提取规则。若定义 class，表示由 className 类执行内容提取；若 className=”default”, 表示用当前缺省方式提取，也就是针对 table 表中的内容提取数据。若缺省提取不满足需求，用户可自定义类来实现，具体实现参考后面用户自定义程序。例如：extractby :“//div[@class=news-content]/text()”，从网页中提取此节点下的数据。

page_url 可针对不同的页面制定不同的规则。通过 filter 过滤后的页面中去提取数据，减少要处理的 URL 数量，当 target_url 多时，能提高效率。

若无 extractby 规则，则表示提取 target_url 页面中所有的内容。若定义了多条 page_url 规则，则首个符合规则的内容将被提取。假如 A 页面内容的符合规则 R1,R2,R3, 提取内容时首先是 R2，则不再根据 R1、R3 规则提取数据。说明：若没有定义 target_url 规则，但当前页面有适合的 page_url 规则，则此页面的内容也会被提取。

4、抓取股票历史数据

下面用抓取股票历史数据来说明，web_crawl() 接口是如何应用的。基本操作：先获取股票代码，然后通过股票代码查询历史数据，从下载页面中提取数据后保存。A、在https://www.banban.cn/gupiao/list_xxx.html 页面 help_url 提取上证、深证、创业板的股票代码。B 、将股票代码与http://www.aigaogao.com/tools/history.html?s=%s 结合，生成需要下载网址 target_url.C 、针对下载页 target_url 中的内容提取。

D、显示提取后的内容。

SPL 实现代码 Stock.dfx：

加载其中的股票 600010 数据为：

5、用户自定义程序 对于内容提取，缺省提供了对 html 中的 table 内容进行抽取。但是世界上没有千篇一律的网页一样，也没有一劳永逸的提取算法。在使用网页数据抓取过程中，你会碰到各种类型的网页，这个时候，你就要针对这些网页，来实现对应抽取方法。存储方式类似，缺省提供的是文件保存，若想其它方式如数据库存储，还需要用户自己开发程序。参考下面接口，可将自定义程序融入网页数据抓取流程中。

A、数据提取程序接口

下载页的内容组织形式多样，各具不同，为了适应更多的内容提取需求，用户可自定义提取数据程序。接口程序:package com.web;

import us.codecraft.webmagic.Page;public interface StandPageItem {// 数据提取处理。void parse(Page p);}

需要实现 com.web.StandPageItem 接口 parse(Page p)，数据提取在此实现。

B、数据保存程序接口提取数据存储方式种类繁多，各具不同，为了适应更多的数据存储需求，用户可自定义数据存储程序。接口程序:package com.web;import us.codecraft.webmagic.ResultItems;import us.codecraft.webmagic.Task;import us.codecraft.webmagic.pipeline.Pipeline;

public interface StandPipeline extends Pipeline { public void setArgv(String argv); public void process(ResultItems paramResultItems, Task paramTask);}同样需要实现 com.web.StandPipeline 类中的 setArgv(), process()。setArgv()输入参数接口，process() 处理存储数据接口。

C、数据提取程序样例实现 com.web.StandPage 接口 parse(Page p)，参考代码：package com.web;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.selector.Selectable;

public class StockHistoryData implements StandPageItem{ @Override public void parse(Page page) { StringBuilder buf = new StringBuilder(); List nodes = page.getHtml().xpath(“table/tbody/”).nodes(); for(Selectable node:nodes){ String day = node.xpath(“//a/text()”).get(); List title = node.xpath(“//a/text() | tr/td/text()”).all(); if (title.size()

本文到此结束，希望对大家有所帮助呢。

2/2 首页上一页 1 2

上一篇：url什么意思(网络url是什么意思啊)

下一篇：返回列表

规则数据内容

相关链接
爱的教育的故事（爱的教育这本书的内容） 2020-12-06 raw数据恢复（恢复照片不要钱的app）_1 2020-12-06 raw数据恢复（恢复照片不要钱的app） 2020-12-06 realme x青春版参数具体的配置数据 2020-12-06 sata硬盘数据线（sata硬盘电源线） 2020-12-06 sd卡分区后怎么恢复（sd卡数据恢复教程） 2020-12-06 阿里纳斯为什么废了(阿里纳斯数据) 2020-12-06 阿里巴巴排名规则（1688关键词排名规则） 2020-12-06 阿尔巴尼亚语输入法：如何删除内容？ 2020-12-06 word文档怎么修改(怎样修改word中编辑好的目录内容) 2020-12-06

网友回复（共有 0 条回复）

李镇西	窦桂梅	魏书生	高考作文	中考作文	励志故事	鬼故事
民间故事	神话故事	历史故事	诗歌大全	经典散文	人教版:部编本:一年级语文
人教版:部编本:二年级语文		人教版:部编本:三年级语文		人教版课标本第一册:一年级语文上册

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

相关链接