CrawlerBuilder (wind-bell-码云(gitee.com))

java.lang.Object
- com.yishuifengxiao.common.crawler.CrawlerBuilder

```
public class CrawlerBuilder
extends Object
```
风铃虫规则构建器

Version:

1.0.0

Author:

yishui

Method Summary

All Methods Static Methods Instance Methods Concrete Methods
Modifier and Type	Method and Description
`CrawlerBuilder`	`addExtractRule(ExtractRule extractRule)` 增加内容提取规则
`CrawlerBuilder`	`addExtractRule(String key, ExtractFieldRule fieldExtractRule)` 根据内容提取规则的编码增加该内容提取规则的提取规则
`CrawlerBuilder`	`addExtractRules(List<ExtractRule> list)` 增加内容提取规则
`CrawlerBuilder`	`addFieldExtractRules(String key, List<ExtractFieldRule> list)` 根据内容提取规则的编码增加该内容提取规则的提取规则
`CrawlerBuilder`	`addHeader(HeaderRule headerRule)` 增加一组请求头参数
`CrawlerBuilder`	`addHeaders(List<HeaderRule> list)` 增加一组请求头参数
`CrawlerBuilder`	`addLinkRule(MatcherRule linkRule)` 增加链接提取规则
`CrawlerBuilder`	`addLinkRules(Set<MatcherRule> linkRules)` 增加链接提取规则
`CrawlerRule`	`build()` 构建一个风铃虫规则
`String`	`cacheControl()` 获取网页缓存策略默认为 max-age=0
`CrawlerBuilder`	`cacheControl(String cacheControl)` 设置网页缓存策略默认为 max-age=0
`boolean`	`circularRedirectsAllowed()` 获取是否应允许循环重定向
`CrawlerBuilder`	`circularRedirectsAllowed(boolean circularRedirectsAllowed)` 设置是否应允许循环重定向
`int`	`connectTimeout()` 获取确定连接建立之前的超时时间（以毫秒为单位）
`CrawlerBuilder`	`connectTimeout(int connectTimeout)` 设置确定连接建立之前的超时时间（以毫秒为单位）
`ContentRule`	`content()` 获取内容页地址规则
`CrawlerBuilder`	`content(ContentRule content)` 设置内容解析规则
`boolean`	`contentCompressionEnabled()` 是否是否请求目标服务器压缩内容
`CrawlerBuilder`	`contentCompressionEnabled(boolean contentCompressionEnabled)` 设置是否请求目标服务器压缩内容
`MatcherRule`	`contentPageRule()` 获取内容页地址规则多个规则之间用半角逗号隔开
`CrawlerBuilder`	`contentPageRule(MatcherRule contentPageRule)` 设置内容页地址规则多个规则之间用半角逗号隔开
`String`	`cookieSpec()` 获取确定用于HTTP状态管理的cookie规范的名称
`CrawlerBuilder`	`cookieSpec(String cookieSpec)` 设置确定用于HTTP状态管理的cookie规范的名称
`String`	`cookieValue()` 获取请求时携带cookie信息此值为空时表示由内核智能处理
`CrawlerBuilder`	`cookieValue(String cookieValue)` 设置请求时携带cookie信息
`Crawler`	`creatCrawler()` 创建一个风铃虫简单实例
`static CrawlerBuilder`	`create()` 创建一个默认风铃虫规则构建器
`static CrawlerBuilder`	`create(CrawlerRule crawlerRule)` 根据已有规则创建一个默认风铃虫规则构建器
`ExtractRule`	`extractRule(String key)` 根据内容提取规则的编码获取内容提取规则
`List<ExtractRule>`	`extractRules()` 获取所有的内容提取规则
`String`	`failureMark()` 获取失败标志下载内容里包含此值时表示被服务器拦截，使用正则表达式，如果为空则不进行此校验
`CrawlerBuilder`	`failureMark(String failureMark)` 设置失败标志下载内容里包含此值时表示被服务器拦截，使用正则表达式，如果为空则不进行此校验
`List<ExtractFieldRule>`	`fieldExtractRule(String key)` 根据内容提取规则的编码获取该内容提取规则的提取规则
`List<HeaderRule>`	`headers()` 获取所有的请求头参数
`int`	`interceptCount()` 获取拦截次数阀域值连续多次在下载内容中获取到失败标识时的重试此次，超过此次数会关闭该风铃虫实例，默认为5
`CrawlerBuilder`	`interceptCount(int interceptCount)` 设置拦截次数阀域值连续多次在下载内容中获取到失败标识时的重试此次，超过此次数会关闭该风铃虫实例，默认为5
`long`	`interval()` 获取每次请求的间隔时间，单位为毫秒，间隔时间为0到该值得两倍之间的一个随机数防止因频繁请求而导致服务器封杀默认时间为10000毫秒(10秒)
`CrawlerBuilder`	`interval(long intervalInSeconds)` 设置每次请求的间隔时间，单位为毫秒，间隔时间为0到该值得两倍之间的一个随机数防止因频繁请求而导致服务器封杀, 默认时间为10000毫秒(10秒)
`LinkRule`	`link()` 获取链接解析规则
`CrawlerBuilder`	`link(LinkRule link)` 设置链接解析规则
`Set<MatcherRule>`	`linkRules()` 获取链接提取规则
`Boolean`	`matcherCaseSensitive()` 获取匹配时是否大小写敏感
`CrawlerBuilder`	`matcherCaseSensitive(Boolean matcherCaseSensitive)` 设置匹配时是否大小写敏感
`Boolean`	`matcherFuzzy()` 匹配时是否为模糊匹配
`CrawlerBuilder`	`matcherFuzzy(Boolean matcherFuzzy)` 设置匹配时是否为模糊匹配
`Boolean`	`matcherMode()` 获取匹配模式
`CrawlerBuilder`	`matcherMode(Boolean matcherMode)` 设置匹配模式
`String`	`matcherPattern()` 获取内容匹配参数
`CrawlerBuilder`	`matcherPattern(String matcherPattern)` 设置内容匹配参数
`String`	`matcherTarget()` 获取期待匹配值
`CrawlerBuilder`	`matcherTarget(String matcherTarget)` 设置期待匹配值
`Type`	`matcherType()` 获取内容匹配类型
`CrawlerBuilder`	`matcherType(Type matcherType)` 设置内容匹配类型
`long`	`maxDepth()` 获取最大的请求深度
`CrawlerBuilder`	`maxDepth(long maxDepth)` 设置最大的请求深度
`int`	`maxRedirects()` 获取要遵循的最大重定向数
`CrawlerBuilder`	`maxRedirects(int maxRedirects)` 设置要遵循的最大重定向数
`boolean`	`normalizeUri()` 确定客户端是否应规范请求中的URI
`CrawlerBuilder`	`normalizeUri(boolean normalizeUri)` 设置客户端是否应规范请求中的URI
`PageRule`	`pageRule()` 获取内容匹配规则
`CrawlerBuilder`	`pageRule(PageRule pageRule)` 设置内容匹配规则
`boolean`	`redirectsEnabled()` 获取是否应自动处理重定向
`CrawlerBuilder`	`redirectsEnabled(boolean redirectsEnabled)` 设置是否应自动处理重定向
`String`	`referrer()` 获取请求来源页此值为空时表示由内核智能处理
`CrawlerBuilder`	`referrer(String referrer)` 设置请求来源页
`boolean`	`relativeRedirectsAllowed()` 获取确定是否应拒绝相对重定向
`CrawlerBuilder`	`relativeRedirectsAllowed(boolean relativeRedirectsAllowed)` 设置确定是否应拒绝相对重定向
`int`	`retryCount()` 获取请求失败时的重试次数
`CrawlerBuilder`	`retryCount(int retryCount)` 设置请求失败时的重试次数
`CrawlerBuilder`	`setExtractRules(List<ExtractRule> list)` 设置内容提取规则会清空原始的内容提取规则
`CrawlerBuilder`	`setExtractRules(String key, List<ExtractFieldRule> list)` 根据内容提取规则的编码设置该内容提取规则的提取规则
`CrawlerBuilder`	`setHeaders(List<HeaderRule> list)` 清空原始值后再设置请求头参数
`CrawlerBuilder`	`setLinkRules(Set<MatcherRule> linkRules)` 清空原始链接提取规则后设置链接提取规则
`SiteRule`	`site()` 获取站点配置规则数据
`CrawlerBuilder`	`site(SiteRule site)` 设置站点配置规则数据
`String`	`startUrl()` 获取起始链接地址多个起始链接之间用半角逗号隔开
`CrawlerBuilder`	`startUrl(String startUrl)` 设置起始链接地址多个起始链接之间用半角逗号隔开
`int`	`threadNum()` 风铃虫解析时线程数默认线程数为1
`CrawlerBuilder`	`threadNum(int threadNum)` 设置风铃虫解析时线程数默认线程数为1
`String`	`userAgent()` 获取浏览器标识，此值为空时表示每次请求都会随机从内置浏览器标识中选择一个
`CrawlerBuilder`	`userAgent(String userAgent)` 设置浏览器标识
`long`	`waitTime()` 获取超时等待时间，单位为毫秒,默认为300000毫秒(300秒),连续间隔多长时间后没有新的请求任务表明此任务已经结束默认为300000毫秒(300秒)
`CrawlerBuilder`	`waitTime(long waitTimeInSeconds)` 设置超时等待时间，单位为毫秒,默认为300000毫秒(300秒),连续间隔多长时间后没有新的请求任务表明此任务已经结束默认为300000毫秒(300秒)

Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

- Method Detail
  - create
```
public static CrawlerBuilder create()
```
    创建一个默认风铃虫规则构建器
    
    Returns:
    
    风铃虫规则构建器
  - create
```
public static CrawlerBuilder create(CrawlerRule crawlerRule)
```
    根据已有规则创建一个默认风铃虫规则构建器
    
    Parameters:
    
    crawlerRule - 风铃虫规则
    
    Returns:
    
    风铃虫规则构建器
  - interval
```
public long interval()
```
    获取每次请求的间隔时间，单位为毫秒，间隔时间为0到该值得两倍之间的一个随机数
    防止因频繁请求而导致服务器封杀
    默认时间为10000毫秒(10秒)
    
    Returns:
    
    每次请求的间隔时间，单位为毫秒
  - interval
```
public CrawlerBuilder interval(long intervalInSeconds)
```
    设置每次请求的间隔时间，单位为毫秒，间隔时间为0到该值得两倍之间的一个随机数
    防止因频繁请求而导致服务器封杀,
    默认时间为10000毫秒(10秒)
    
    Parameters:
    
    intervalInSeconds - 每次请求的间隔时间，单位为毫秒，必须不小于0
    
    Returns:
  - waitTime
```
public long waitTime()
```
    获取超时等待时间，单位为毫秒,默认为300000毫秒(300秒),连续间隔多长时间后没有新的请求任务表明此任务已经结束
    默认为300000毫秒(300秒)
    
    Returns:
    
    超时等待时间，单位为毫秒
  - waitTime
```
public CrawlerBuilder waitTime(long waitTimeInSeconds)
```
    设置超时等待时间，单位为毫秒,默认为300000毫秒(300秒),连续间隔多长时间后没有新的请求任务表明此任务已经结束
    默认为300000毫秒(300秒)
    
    Parameters:
    
    waitTimeInSeconds - 超时等待时间，单位为毫秒，必须大于0
    
    Returns:
  - threadNum
```
public int threadNum()
```
    风铃虫解析时线程数
    默认线程数为1
    
    Returns:
    
    解析时线程数
  - threadNum
```
public CrawlerBuilder threadNum(int threadNum)
```
    设置风铃虫解析时线程数默认线程数为1
    
    Parameters:
    
    threadNum - 风铃虫解析时线程数，必须大于0
    
    Returns:
  - site
```
public SiteRule site()
```
    获取站点配置规则数据
    
    Returns:
    
    站点配置规则数据
  - site
```
public CrawlerBuilder site(SiteRule site)
```
    设置站点配置规则数据
    
    Parameters:
    
    site - 站点配置规则数据
    
    Returns:
  - userAgent
```
public String userAgent()
```
    获取浏览器标识，此值为空时表示每次请求都会随机从内置浏览器标识中选择一个
    
    Returns:
    
    浏览器标识
  - userAgent
```
public CrawlerBuilder userAgent(String userAgent)
```
    设置浏览器标识
    
    Parameters:
    
    userAgent - 浏览器标识，此值为空时表示每次请求都会随机从内置浏览器标识中选择一个
    
    Returns:
  - referrer
```
public String referrer()
```
    获取请求来源页
    此值为空时表示由内核智能处理
    
    Returns:
  - referrer
```
public CrawlerBuilder referrer(String referrer)
```
    设置请求来源页
    
    Parameters:
    
    referrer - 请求来源页，此值为空时表示由内核智能处理
    
    Returns:
  - cookieValue
```
public String cookieValue()
```
    获取请求时携带cookie信息
    此值为空时表示由内核智能处理
    
    Returns:
    
    请求时携带cookie信息
  - cookieValue
```
public CrawlerBuilder cookieValue(String cookieValue)
```
    设置请求时携带cookie信息
    
    Parameters:
    
    cookieValue - 请求时携带cookie信息，此值为空时表示由内核智能处理
    
    Returns:
  - cacheControl
```
public String cacheControl()
```
    获取网页缓存策略
    默认为 max-age=0
    
    Returns:
  - cacheControl
```
public CrawlerBuilder cacheControl(String cacheControl)
```
    设置网页缓存策略
    默认为 max-age=0
    
    Parameters:
    
    cacheControl - 网页缓存策略，默认为 max-age=0
    
    Returns:
  - headers
```
public List<HeaderRule> headers()
```
    获取所有的请求头参数
    
    Returns:
    
    所有的请求头参数
  - addHeader
```
public CrawlerBuilder addHeader(HeaderRule headerRule)
```
    增加一组请求头参数
    
    Parameters:
    
    headerRule - 请求头参数
    
    Returns:
  - addHeaders
```
public CrawlerBuilder addHeaders(List<HeaderRule> list)
```
    增加一组请求头参数
    
    Parameters:
    
    list - 请求头参数
    
    Returns:
  - setHeaders
```
public CrawlerBuilder setHeaders(List<HeaderRule> list)
```
    清空原始值后再设置请求头参数
    
    Parameters:
    
    list - 请求头参数
    
    Returns:
  - failureMark
```
public String failureMark()
```
    获取失败标志
    下载内容里包含此值时表示被服务器拦截，使用正则表达式，如果为空则不进行此校验
    
    Returns:
    
    失败标志
  - failureMark
```
public CrawlerBuilder failureMark(String failureMark)
```
    设置失败标志
    下载内容里包含此值时表示被服务器拦截，使用正则表达式，如果为空则不进行此校验
    
    Parameters:
    
    failureMark - 失败标志，此值为空时表示不开启此功能
    
    Returns:
  - interceptCount
```
public int interceptCount()
```
    获取拦截次数阀域值
    连续多次在下载内容中获取到失败标识时的重试此次，超过此次数会关闭该风铃虫实例，默认为5
    
    Returns:
    
    拦截次数阀域值
  - interceptCount
```
public CrawlerBuilder interceptCount(int interceptCount)
```
    设置拦截次数阀域值
    连续多次在下载内容中获取到失败标识时的重试此次，超过此次数会关闭该风铃虫实例，默认为5
    
    Parameters:
    
    interceptCount - 拦截次数阀域值，此值小于1时表示不开启此功能
    
    Returns:
  - retryCount
```
public int retryCount()
```
    获取请求失败时的重试次数
    
    Returns:
    
    请求失败时的重试次数
  - retryCount
```
public CrawlerBuilder retryCount(int retryCount)
```
    设置请求失败时的重试次数
    
    Parameters:
    
    retryCount - 请求失败时的重试次数,连续多次在下载内容中获取到失败标识时的重试此次，默认为5
    
    Returns:
  - maxDepth
```
public long maxDepth()
```
    获取最大的请求深度
    
    Returns:
    
    最大的请求深度
  - maxDepth
```
public CrawlerBuilder maxDepth(long maxDepth)
```
    设置最大的请求深度
    
    Parameters:
    
    maxDepth - 最大的请求深度，此值为0或负数时表示不进行深度限制
    
    Returns:
  - connectTimeout
```
public int connectTimeout()
```
    获取确定连接建立之前的超时时间（以毫秒为单位）
    
    Returns:
    
    确定连接建立之前的超时时间（以毫秒为单位）,非正数时表示不开启此功能
  - connectTimeout
```
public CrawlerBuilder connectTimeout(int connectTimeout)
```
    设置确定连接建立之前的超时时间（以毫秒为单位）
    
    Parameters:
    
    connectTimeout - 确定连接建立之前的超时时间（以毫秒为单位）,非正数时表示不开启此功能
    
    Returns:
  - redirectsEnabled
```
public boolean redirectsEnabled()
```
    获取是否应自动处理重定向
    
    Returns:
    
    是否应自动处理重定向
  - redirectsEnabled
```
public CrawlerBuilder redirectsEnabled(boolean redirectsEnabled)
```
    设置是否应自动处理重定向
    
    Parameters:
    
    redirectsEnabled - 是否应自动处理重定向，默认为true
    
    Returns:
  - cookieSpec
```
public String cookieSpec()
```
    获取确定用于HTTP状态管理的cookie规范的名称
    
    Returns:
    
    确定用于HTTP状态管理的cookie规范的名称
  - cookieSpec
```
public CrawlerBuilder cookieSpec(String cookieSpec)
```
    设置确定用于HTTP状态管理的cookie规范的名称
    
    Parameters:
    
    cookieSpec - 确定用于HTTP状态管理的cookie规范的名称
    
    Returns:
  - relativeRedirectsAllowed
```
public boolean relativeRedirectsAllowed()
```
    获取确定是否应拒绝相对重定向
    
    Returns:
    
    确定是否应拒绝相对重定向
  - relativeRedirectsAllowed
```
public CrawlerBuilder relativeRedirectsAllowed(boolean relativeRedirectsAllowed)
```
    设置确定是否应拒绝相对重定向
    
    Parameters:
    
    relativeRedirectsAllowed - 确定是否应拒绝相对重定向
    
    Returns:
  - circularRedirectsAllowed
```
public boolean circularRedirectsAllowed()
```
    获取是否应允许循环重定向
    
    Returns:
    
    是否应允许循环重定向
  - circularRedirectsAllowed
```
public CrawlerBuilder circularRedirectsAllowed(boolean circularRedirectsAllowed)
```
    设置是否应允许循环重定向
    
    Parameters:
    
    circularRedirectsAllowed - 是否应允许循环重定向
    
    Returns:
  - normalizeUri
```
public boolean normalizeUri()
```
    确定客户端是否应规范请求中的URI
    
    Returns:
    
    客户端是否应规范请求中的URI
  - normalizeUri
```
public CrawlerBuilder normalizeUri(boolean normalizeUri)
```
    设置客户端是否应规范请求中的URI
    
    Parameters:
    
    normalizeUri - 客户端是否应规范请求中的URI
    
    Returns:
  - maxRedirects
```
public int maxRedirects()
```
    获取要遵循的最大重定向数
    
    Returns:
  - maxRedirects
```
public CrawlerBuilder maxRedirects(int maxRedirects)
```
    设置要遵循的最大重定向数
    
    Parameters:
    
    maxRedirects - 要遵循的最大重定向数
    
    Returns:
  - contentCompressionEnabled
```
public boolean contentCompressionEnabled()
```
    是否是否请求目标服务器压缩内容
    
    Returns:
    
    是否请求目标服务器压缩内容
  - contentCompressionEnabled
```
public CrawlerBuilder contentCompressionEnabled(boolean contentCompressionEnabled)
```
    设置是否请求目标服务器压缩内容
    
    Parameters:
    
    contentCompressionEnabled - 是否请求目标服务器压缩内容
    
    Returns:
  - link
```
public LinkRule link()
```
    获取链接解析规则
    
    Returns:
    
    链接解析规则
  - link
```
public CrawlerBuilder link(LinkRule link)
```
    设置链接解析规则
    
    Parameters:
    
    link - 链接解析规则
    
    Returns:
  - linkRules
```
public Set<MatcherRule> linkRules()
```
    获取链接提取规则
    
    Returns:
    
    链接提取规则
  - setLinkRules
```
public CrawlerBuilder setLinkRules(Set<MatcherRule> linkRules)
```
    清空原始链接提取规则后设置链接提取规则
    
    Parameters:
    
    linkRules - 链接提取规则
    
    Returns:
  - addLinkRules
```
public CrawlerBuilder addLinkRules(Set<MatcherRule> linkRules)
```
    增加链接提取规则
    
    Parameters:
    
    linkRules - 链接提取规则
    
    Returns:
  - addLinkRule
```
public CrawlerBuilder addLinkRule(MatcherRule linkRule)
```
    增加链接提取规则
    
    Parameters:
    
    linkRule - 链接提取规则
    
    Returns:
  - startUrl
```
public String startUrl()
```
    获取起始链接地址
    多个起始链接之间用半角逗号隔开
    
    Returns:
    
    起始链接地址
  - startUrl
```
public CrawlerBuilder startUrl(String startUrl)
```
    设置起始链接地址
    多个起始链接之间用半角逗号隔开
    
    Parameters:
    
    startUrl - 起始链接地址
    
    Returns:
  - content
```
public ContentRule content()
```
    获取内容页地址规则
    
    Returns:
    
    内容页地址规则
  - content
```
public CrawlerBuilder content(ContentRule content)
```
    设置内容解析规则
    
    Parameters:
    
    content - 内容解析规则
    
    Returns:
  - pageRule
```
public PageRule pageRule()
```
    获取内容匹配规则
    
    Returns:
    
    内容匹配规则
  - pageRule
```
public CrawlerBuilder pageRule(PageRule pageRule)
```
    设置内容匹配规则
    
    Parameters:
    
    pageRule - 内容匹配规则
    
    Returns:
  - contentPageRule
```
public MatcherRule contentPageRule()
```
    获取内容页地址规则
    多个规则之间用半角逗号隔开
    
    Returns:
    
    内容页地址规则
  - contentPageRule
```
public CrawlerBuilder contentPageRule(MatcherRule contentPageRule)
```
    设置内容页地址规则
    多个规则之间用半角逗号隔开
    
    Parameters:
    
    contentPageRules - 内容页地址规则，多个规则之间用半角逗号隔开
    
    Returns:
  - matcherType
```
public Type matcherType()
```
    获取内容匹配类型
    
    Returns:
    
    匹配类型
  - matcherType
```
public CrawlerBuilder matcherType(Type matcherType)
```
    设置内容匹配类型
    
    Parameters:
    
    matcherType -
    
    Returns:
  - matcherPattern
```
public String matcherPattern()
```
    获取内容匹配参数
    
    Returns:
    
    内容匹配参数
  - matcherPattern
```
public CrawlerBuilder matcherPattern(String matcherPattern)
```
    设置内容匹配参数
    
    Parameters:
    
    matcherPattern - 内容匹配参数
    
    Returns:
  - matcherTarget
```
public String matcherTarget()
```
    获取期待匹配值
    
    Returns:
    
    期待匹配值
  - matcherTarget
```
public CrawlerBuilder matcherTarget(String matcherTarget)
```
    设置期待匹配值
    
    Parameters:
    
    matcherTarget - 期待匹配值
    
    Returns:
  - matcherMode
```
public Boolean matcherMode()
```
    获取匹配模式
    
    Returns:
    
    true表示必须包含期待匹配参数，false标识不能包含期待匹配参数
  - matcherMode
```
public CrawlerBuilder matcherMode(Boolean matcherMode)
```
    设置匹配模式
    
    Parameters:
    
    matcherMode - true表示必须包含期待匹配参数，false标识不能包含期待匹配参数
    
    Returns:
  - matcherCaseSensitive
```
public Boolean matcherCaseSensitive()
```
    获取匹配时是否大小写敏感
    
    Returns:
    
    是否大小写敏感，即进行匹配时是否为大小写敏感，默认为 false
  - matcherCaseSensitive
```
public CrawlerBuilder matcherCaseSensitive(Boolean matcherCaseSensitive)
```
    设置匹配时是否大小写敏感
    
    Parameters:
    
    matcherCaseSensitive - 是否大小写敏感，true表示敏感
    
    Returns:
  - matcherFuzzy
```
public Boolean matcherFuzzy()
```
    匹配时是否为模糊匹配
    
    Returns:
    
    true表示为模糊匹配
  - matcherFuzzy
```
public CrawlerBuilder matcherFuzzy(Boolean matcherFuzzy)
```
    设置匹配时是否为模糊匹配
    
    Parameters:
    
    matcherFuzzy - true表示为模糊匹配
    
    Returns:
  - extractRules
```
public List<ExtractRule> extractRules()
```
    获取所有的内容提取规则
    
    Returns:
    
    所有的内容提取规则
  - addExtractRules
```
public CrawlerBuilder addExtractRules(List<ExtractRule> list)
```
    增加内容提取规则
    
    Parameters:
    
    list - 内容提取规则
    
    Returns:
  - setExtractRules
```
public CrawlerBuilder setExtractRules(List<ExtractRule> list)
```
    设置内容提取规则
    会清空原始的内容提取规则
    
    Parameters:
    
    list - 内容提取规则
    
    Returns:
  - extractRule
```
public ExtractRule extractRule(String key)
```
    根据内容提取规则的编码获取内容提取规则
    
    Parameters:
    
    key - 内容提取规则的编码获取
    
    Returns:
    
    内容提取规则
  - addExtractRule
```
public CrawlerBuilder addExtractRule(ExtractRule extractRule)
```
    增加内容提取规则
    
    Parameters:
    
    extractRule - 内容提取规则
    
    Returns:
  - fieldExtractRule
```
public List<ExtractFieldRule> fieldExtractRule(String key)
```
    根据内容提取规则的编码获取该内容提取规则的提取规则
    
    Parameters:
    
    key - 内容提取规则的编码
    
    Returns:
    
    该内容提取规则的提取规则
  - addFieldExtractRules
```
public CrawlerBuilder addFieldExtractRules(String key,
                                           List<ExtractFieldRule> list)
```
    根据内容提取规则的编码增加该内容提取规则的提取规则
    
    Parameters:
    
    key - 内容提取规则的编码
    
    list - 该内容提取规则的提取规则
    
    Returns:
  - addExtractRule
```
public CrawlerBuilder addExtractRule(String key,
                                     ExtractFieldRule fieldExtractRule)
```
    根据内容提取规则的编码增加该内容提取规则的提取规则
    
    Parameters:
    
    key - 内容提取规则的编码
    
    fieldExtractRule - 该内容提取规则的提取规则
    
    Returns:
  - setExtractRules
```
public CrawlerBuilder setExtractRules(String key,
                                      List<ExtractFieldRule> list)
```
    根据内容提取规则的编码设置该内容提取规则的提取规则
    
    Parameters:
    
    key - 内容提取规则的编码
    
    list - 该内容提取规则的提取规则
    
    Returns:
  - build
```
public CrawlerRule build()
```
    构建一个风铃虫规则
    
    Returns:
  - creatCrawler
```
public Crawler creatCrawler()
```
    创建一个风铃虫简单实例
    
    Returns:
    
    风铃虫简单实例

Class CrawlerBuilder

Method Summary

Methods inherited from class java.lang.Object

Method Detail

create

create

interval

interval

waitTime

waitTime

threadNum

threadNum

site

site

userAgent

userAgent

referrer

referrer

cookieValue

cookieValue

cacheControl

cacheControl

headers

addHeader

addHeaders

setHeaders

failureMark

failureMark

interceptCount

interceptCount

retryCount

retryCount

maxDepth

maxDepth

connectTimeout

connectTimeout

redirectsEnabled

redirectsEnabled

cookieSpec

cookieSpec

relativeRedirectsAllowed

relativeRedirectsAllowed

circularRedirectsAllowed

circularRedirectsAllowed

normalizeUri

normalizeUri

maxRedirects

maxRedirects

contentCompressionEnabled

contentCompressionEnabled

link

link

linkRules

setLinkRules

addLinkRules

addLinkRule

startUrl

startUrl

content

content

pageRule

pageRule

contentPageRule

contentPageRule

matcherType

matcherType

matcherPattern

matcherPattern

matcherTarget

matcherTarget

matcherMode

matcherMode

matcherCaseSensitive

matcherCaseSensitive

matcherFuzzy

matcherFuzzy

extractRules

addExtractRules

setExtractRules

extractRule