Package | Description |
---|---|
com.yishuifengxiao.common.crawler.extractor.content.strategy | |
com.yishuifengxiao.common.crawler.extractor.content.strategy.impl |
Modifier and Type | Method and Description |
---|---|
static Strategy |
StrategyFactory.get(Rule rule)
根据规则生成提取策略
|
Modifier and Type | Class and Description |
---|---|
class |
AllStrategy
原文提取策略
不对输入参数进行处理, 直接返回输入数据 |
class |
ArrayStrategy
数组截取策略
将输入数据根据分隔符分割为数组,然后从分割的数组中提取第N个元素 |
class |
ChnStrategy
中文提取策略
提取出输入数据里的所有中文信息 |
class |
ConstantStrategy
常量提取策略
无论输入数据是什么,直接将设置的常量值作为输出数据输出 |
class |
CssStrategy
css提取策略
根据css选择器和属性按照CSS提取模式从输入数据里提取出对应区域的数据(可能是HTML片段) |
class |
CssTextStrategy
css文本提取策略
此模式下只会包含内部的数据,不会包含外部html |
class |
DomainStrategy
域名提取策略
从输入数据里提取出所有的域名 |
class |
EmailStrategy
邮箱提取策略
从输入数据里提取出所有的邮箱地址 |
class |
NumStrategy
数字提取策略
从输入数据里提取出所有的数字 |
class |
RegexStrategy
正则提取策略
按照正则表达式从输入数据里提取出所有符合正则表达式的信息 |
class |
RemoveStrategy
字符移除策略
根据参数移除输入数据里指定的信息 |
class |
ReplaceStrategy
字符替换策略
根据参数将输入数据中的原始字符替换为目标字符 |
class |
ScriptStrategy
脚本提取器
通过js脚本从输入参数中提取数据 示例脚本如下: |
class |
SubstrStrategy
字符截取策略
根据参数从输入数据中截取指定长度的字符 |
class |
SystemStrategy
系统占位符替换策略
将输入数据中的系统占位符 [@<yishui>@] 替换为指定的字符 |
class |
UrlStrategy
url提取策略
从输入数据里提取出所有的url |
class |
XpathStrategy
XPATH提取策略
根据参数按照XPATH方式从输入数据中提取出所有符合要求的数据 |
Copyright © 2020 Pivotal Software, Inc.. All rights reserved.