Properties

$artNotes

$artNotes : 

Type

$spNotes

$spNotes : 

Type

$lists

$lists : 

Type

$noteInfos

$noteInfos : 

Type

$dsql

$dsql : 

Type

$noteId

$noteId : 

Type

$cDedeHtml

$cDedeHtml : 

Type

$cHttpDown

$cHttpDown : 

Type

$mediaCount

$mediaCount : 

Type

$tmpUnitValue

$tmpUnitValue : 

Type

$tmpLinks

$tmpLinks : 

Type

$tmpHtml

$tmpHtml : 

Type

$breImage

$breImage : 

Type

$errString

$errString : 

Type

Methods

__construct()

__construct() 

DedeCollection()

DedeCollection() 

Close()

Close() 

LoadNote()

LoadNote(integer  $nid) : void

从数据库里载入某个节点

Parameters

integer $nid

采集节点ID

LoadListConfig()

LoadListConfig(string  $configString) : void

分析基本节点的及索引配置信息

Parameters

string $configString

配置字符串

LoadItemConfig()

LoadItemConfig(string  $configString) : void

分析采集文章页的字段的设置

Parameters

string $configString

配置字符串

DownUrl()

DownUrl(integer  $aid, string  $dourl, string  $litpic = '', boolean  $issave = TRUE) : string

下载其中一个网址,并保存

Parameters

integer $aid

文档ID

string $dourl

操作地址

string $litpic

缩略图

boolean $issave

是否保存

Returns

string

GetUrl()

GetUrl(  $uri) 

Parameters

$uri

GetSpPage()

GetSpPage(string  $dourl, string  $noteid, string  $html, integer  $step) : string

获取分页区域的内容

Parameters

string $dourl

操作地址

string $noteid

节点ID

string $html

html内容

integer $step

步骤

Returns

string

GetHtmlArea()

GetHtmlArea(string  $sptag, string  $areaRule, string  $html) : string

获取特定区域的HTML

Parameters

string $sptag

区域标记

string $areaRule

地址规则

string $html

html代码

Returns

string

DownOnePage()

DownOnePage(string  $dourl) 

下载指定网址

Parameters

string $dourl

下载地址

DownMedia()

DownMedia(string  $dourl, string  $mtype = 'img', string  $islitpic = FALSE) : string

下载特定资源,并保存为指定文件

Parameters

string $dourl

操作地址

string $mtype

附件类型

string $islitpic

是否缩略图

Returns

string

GetRndName()

GetRndName(string  $url, string  $v) : string

获得下载媒体的随机名称

Parameters

string $url

地址

string $v

Returns

string

GetPageFields()

GetPageFields(string  $dourl, string  $needDown, string  $litpic = '') : string

按载入的网页内容获取规则,从一个HTML文件中获取内容

Parameters

string $dourl

操作地址

string $needDown

需要下载

string $litpic

缩略图

Returns

string

DownMedias()

DownMedias(string  $html, string  $url) : string

下载内容里的资源

Parameters

string $html

html内容

string $url

地址

Returns

string

MediasReplace()

MediasReplace(string  $html, string  $dourl) : string

仅替换内容里的资源为绝对网址

Parameters

string $html

html内容

string $dourl

操作地址

Returns

string

Testlists()

Testlists(  $dourl) 

Parameters

$dourl

TestArt()

TestArt(  $dourl) : string

测试文章规则

Parameters

$dourl

操作地址

Returns

string

GetSourceUrl()

GetSourceUrl(integer  $islisten, integer  $glstart, integer  $pagesize = 10) : string

采集种子网址

Parameters

integer $islisten

是否监听

integer $glstart

采集开始

integer $pagesize

分页尺寸

Returns

string

RunPHP()

RunPHP(string  $fvalue, string  $phpcode) : string

用扩展函数处理采集到的原始数据

Parameters

string $fvalue

string $phpcode

PHP代码

Returns

string

ChangeCode()

ChangeCode(string  $str) : string

编码转换

Parameters

string $str

字符串

Returns

string