发布时间:2019-11-27 16:39:43
电脑改ip地址怎么改,面向大学领域的聚焦爬虫设计与实现
对目标页面的信息做进一步处理,比如信息抽取和信息集成等。本文主要针对第一个问题进行阐述,即如何获取资源目标页面。
对于目标页面的获取,目前主要采用CrawlerCll自动爬取web页面,即从预先指定的初始URL集(也称种子集)出发,采用某种搜索策略,沿着web链接结构爬行,在爬行过程中获取目标页面集。Crawler搜索策略一般分为广度优先和最佳优先两种。广度优先主要用于通用搜索引擎,其目标是尽可能多地搜集相关页面,但是该策略会造成资源浪费,并且随着爬行深度的增加,抓取的页面的主题相关性也会随之降低。最佳优先策略主要用于垂直搜索引擎,其目标是搜索某个特定领域的相关页面。相对于通用搜索引擎,垂直搜索引擎能够快速、准确地为用户提供资源。作为垂直搜索引擎的核心部分,设计一个高效的聚焦爬虫系统 (Focused CrawlerC2J)显得尤为重要电脑改ip地址怎么改。
Chakrabarti等人首次提出了聚焦爬虫的基本概念和框架。该框架引人了一个分层的分类结构并在该分类结构上训练一个朴素贝叶斯分类器。在爬虫过程中,利用分类器计算当前页面内容与主题之间的相似度,将其作为该页面内超链接URL的优先级,通过URL优先级大小控制爬行方向。该方法的不足在于,其假定页面内所有超链接的优先级等同于页面与主题的相似度大小,没有考虑到页面可能会包含多个主题。后来,Chakrabarti等人又设计了一个有监督的在线学习算法,引人反馈机制来预测待抓取URL的优先级团。Diligenti等人提出了基于Context Graphs的方法。该方法根据K个种子页面构建一个N层的context Graphs模型,再对每层页面构建一个朴素贝叶斯分类器。爬行阶段,利用分类器判定页面所属层次,将页面添加到对应的队列中[ 5]。另一种相似的方法就是采用增强学习的方法。Rennie等人利用增强学习的思想,用引导至目标网页的web链接路径来训练链接分类器。分类器根据网页文本信息和超链接文本对超链接进行分类,计算出超链接的回报值[ 6〕。朱婷等人在原始分类器聚焦爬虫的基础上,设计并实现在线增量学习的自适应聚焦爬虫。该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器。基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类。在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息做出分类模型调整,以更合理的方式计算链接的主题相关度。以上提到的方法主要基于页面内容分析,还有一类方法是基于链接分析。这类方法主要采用了PageRank算法和HITS算法的思想,在爬行过程中,利用web链接结构图分析某个链接的链人链接和链出链接,以此来评估该链接的优先级。例如Abiteboul等人提出的()PIC算法,该算法使用“表示页面重要度,通过分析 web链接结构图,动态地给每个页面分配訪值[ 8]。基于链接结构的分析算法容易忽略页面的内容信息,导致搜索过程中出现“主题漂移”现象。因此,Guan等人在()PIC算法基础上提出了OTIE算法,该算法在分配“值时,综合分析了页面内容和链接结构,提高了与主题相关链接的“仂值。本文主要针对context Graphs方法的不足进行改进,该方法的不足表现在:
(1)利用通用搜索引擎如Google返回的结果反向构建Context Graphs不一定可靠电脑改ip地址怎么改。
(2)利用TF一IDF方法提取页面特征时,没有区分网页正文信息、标题信息和锚文本信息的重要程度。
(3)假定每层页面属于同一主题的结论不完全可靠。
改进后的Context Graphs方法首先通过正向链接构建Context Graphs模型;其次,在利用TF-IDF方法提取页面特征时,对网页正文信息、标题信息和锚文本信息赋予不同的权重值;最后,构建完Context Graphs模型后,采用X一means算法“对页面进行聚类,再对每个簇构建一个朴素贝叶斯分类器。
1系统框架改ip软件
本文设计的面向大学领域的聚焦爬虫系统,其框架如图1所示。框架图中的链接页面预测器形成过程如图2所示。
系统工作过程如下:
(1 )人工收集目标页面样本集(包括正面样例和反面样例),保存到样本数据库中,并使用样本集训练目标页面分类器。
(2)将初始种子URLs加人到边界管理器,并对这些种子URL赋予相同的优先级。
(3)若边界管理器为空或者目标页面数据库中目标页面数达到了系统要求,则进人(5);否则,系统从边
甘国华等:面向大学领域的聚焦爬虫设计与实现 改ip软件
图1面向大学领域的聚焦爬虫系统框架图
Fig. 2 Forming process Of link page predictor 图2链接页面预测器形成过程
界管理器中选择一个优先级最高的URL,使用页面下载器下载页面内容,再利用目标页面分类器对该页面进行分类。若页面属于目标页面,则将其保存到目标页面数据库中,并返回到(3)继续执行,否则进人(4)。
(4)利用链接提取器提取页面中所有链接页面的URLO对于每个URL,通过页面下载器下载页面内容,然后通过链接页面预测器预测该页面的优先级,最后将被赋予一定优先级的URL添加到边界管理器中(为了避免(3)中重复下载页面,将已下载的页面保存起来),返回到(3)继续执行。
(5)系统停止工作。
聚焦爬虫需要解决两个主要问题:(1)目标页面的判断;(2)搜索策略的选择。在图1所示的系统框架图中,目标页面分类器和链接页面预测器分别用来解决这两个问题。
2目标页面分类器
本文研究的问题是作者所在项目组的一个研究课题的组成部分。该课题主要研究如何自动抽取大学内的学院信息、机构信息以及教师人员信息,并将这些半结构化数据转换成结构化数据,从而构建一个面向大学领域的垂直搜索引擎。因此,需要设计一个聚焦爬虫系统,该系统能够为数据抽取提供资源页面。本文主要阐述如何从大学主页出发,获取学院列表页面和机构列表页面,如图3和图4所示。这种类型的页面也称之为“目录式”改ip软件页面。
目标页面(也称之为主题页面)判断一般采用Cosine Similarity方法,即给定一个目标页面集T,对于任意的页面加计算与T之间的最大余弦值M(p,T)。值越大,说明页面的主题相关度越大,计算公式如下:
其中““ “庚分别表示词差在文档和文档t中出现的次数。
若MCP,T)大于设定的阈值7,则判定页面p为目标页面。
2)社会芳 交流自作
Fig. Page Of instltutlon record set 图4机构列表页面
对于获取某个主题的页面,C。si “ Similarity方法仅利用页面的内容却忽略了页.面的结构特征。因此本文综合利用页面内容和页面结构特征,采用基于文持向量机《SVM)的分类器方法进行目标页面判断。
本文采用如下方式来定义页面的文本集胧S和链接文本集0 S。定义1:文本集T“ S一{的T为html文档中标签的直接文本}。定义2:链接文本集0 T“纟S一{ L《L为a标签的直接文本}。
下面的HTML源码是图3所示的页面源码的一部分。
首先将HTML文档数据转换成DOM树结构,如图5所示。然后遍历DOM树获取标签的直接文本。因此由定义1和2可以得到该HTML文档对应的页面的文本集TextSet一{ “院系设置",“首页",“学校概况",“文学院”,“历史学院" },链接文本集0 T“ S一{ “学校概况",“文学院",“历史学院" }。
Fig. 5 Structure Of dom-tree 图5 DOM树结构图系统要获取的目标页面为“目录式"页面,这种页面包含了指向“内容式”页面的链接,因而在“目录式”页面内,链接文本集占页面文本集的比例较大。同时由于学院和机构的名称一般比较简短,因此页面内大部分直接文本长度比较短。因此,我们可以定义一个五元组向量F= <LinkTextDegree ,ShortTextDegree,[ L e ,Anc,E歹和補“和Deg“e>来表达这种“目录式”页面的特征,其每一项特征定义如下:
3 8 2015
(1)链接文本度
LinkTextDegree=《0 Te S /《TextSetI。目表示集合的大小,LinkTextDegree值越大,这个页面属于“目录式”页面的可能性越大改ip地址。
(2)(短文本度)
ShortTextDegree=《S九0 Te引/《Te S《。S九0 Te表示TextSet中长度较小的文本集合。
(3)URLVaIue(URL值)
链接的URL值中一般也含有可利用的有效信息。例如院系列表页面的URL中一般含有“ schools "或者"colleges"等关键词。因此对于某个页面,可以分析其URL中是否包含这些关键词。
(4)锚文本和标题)
页面的锚文本和标题最能体现页面的主题。比如院系列表页面和机构列表页面一般使用的锚文本或者标题有“院系设置"、“学院设置”、“机构设置"、“组织机构”等。判断某个页面是否为目标页面时,可以优先考虑其锚文本信息和标题信息。
(5)(有效信息度)
设主题关键词集合To加CS一{ Tl,T2,· “,T,页面文本集T“一{ Sl,S2,“,sm },对于每个
判断是否存在一个与之匹配。若用R表示匹配成功的个数,则EffectiveInfoDegree=R/《TeatSetl。
基于SVM的目标页面分类器工作过程如下:
(一)数据归一化过程
设训练样本集为{ },测试样本集为,},将训练样本集中的所有样本用五元组向量F表示,然后取所有样本各分量的最大值和最小值分别构成向量工一和“,“对训练样本集中的任一样本采用公式(3)进行归一化处理,测试集样本头的归一化和!相同。
(二)训练测试过程
(1)构造训练样本集,包含目标页面和非目标页面。训练样本集的具体分布情况参考5 · 1节实验1的数据集。
(2)将样本集中的每个页面用定义的五元组向量F进行特征表示并且标注类别(目标页面标注为0,非目标页面标注为改ip地址)。
(3)用标注后的样本集训练SVM分类器,得到训练模型。
(4)对于待分类的页面,先使用五元组特征向量F对页面进行特征表示,然后调用训练模型进行分类,得到该页面的类别,从而可以判断页面是否属于目标页面。
3链接页面预测器
聚焦爬虫的性能很大程度上取决于它使用的搜索策略。如何高效地搜索目标页面是聚焦爬虫面临的一个主要问题。普通的聚焦爬虫算法,如Best First Search“通过计算页面内容与主题的相关度来决定下一步爬虫。这种策略会导致遗漏较多的目标页面,因为一些与主题无关的页面最后有可能链接到主题相关的页面,这种现象也被称作为“隧道穿越” “。例如,搜索“大学里研究数据库方向的教授"这一主题,搜索路径一般为:“大学主页”一“院系列表页面”乛“计算机学院主页”一“教授列表页面”一“教授主页”。最后在教授主页查看其研究方向。在这个爬虫过程中,“大学主页”、“院系列表页面”、“计算机学院主页”与主题并不直接相关。因此可以看出,与主题不是很相关的页面可能通过多次链接最后能够到达目标页面。基于context Graphs的聚焦爬虫算法通过构建层次图可以较好地解决这个问题。该算法分为三个阶段:Context Graphs模型构建阶段,分类器训练阶段,指导爬行阶段。
3 · 1 Context Graphs方法
Context Graphs方法根据给定的与主题相关的种子集合建立层次模型,即Context Graphs模型。对于
面向 领域的聚焦爬虫设计与实现
Fig. 7 Process Of a focused crawler based on improved Context Graphs
基于改进的Context Graphs的聚焦爬虫过程照,采用召回率(Recall)、准确率(Precision)和F值(F一score)作为评价标准。
2 × Recall × Pr
Recall Precison F—score
N p Recall + Pre 0
其中,NT是测试集中属于目标页面类的页面数,NP是分类器预测页面为目标页面类的页面数,N“是正确分类的页面数。
实验数据集:从国内7佣多所高校网站(大学URL来自于http://ziyuan. eol. cn/college. php)下载
4 472个网页。其中一部分作为训练集,另一部分作为测试集,数据集分布如表2所示。
表2实验1数据集
Table 2 Data set of experiment 1
训练集 测试集
正面样本 反面样本 目标页面 非目标页面
学院列表页面机构列表页面 428
5 4 2 9 8 6
1 128 325
343 346
374
实验中,SVM分类器使用LIBSVM“工具包,采用径向基核函数作为空间变换函数。利用5折交叉验证方法获取最优的误差惩罚系数c和核宽度g,其中C一(2一5 ·,25),g一(2 5 ·,25),最终测试出在C一 2,g一0 · 3条件下,分类效果最佳。cos ne Similarity方法中,阈值7设置为0 · 6,目标页面集T使用SVM分类器训练集中的正面样例。实验结果如表3所示。
表3两种方法结果比较
Table 3 Comparison of two methods
基于SVM的目标页面分类器 余弦相似改ip地址方法
准确率 召回率 准确率 召回率
学院列表页面机构列表页面 91. 7 ‰
90· 5% 91. 4 ‰
89 · 2% 91 · 5
89 · 8% 83 · 1%
8L 4% 90 · 3 ‰
90 · 6 ‰ 86 · 6%
85 · 6 ‰
通过表3可以看出,在召回率方面,两种方法相差不大。但是在准确率方面,基于SVM的分类器方法具有更好的效果。
4 · 2实验2
实验以传统的NB分类器作为参照,验证结合X-means的NB分类器(x一NB)的分类效果。实验从国内高校网站下载5种类别的页面Cl、C2、C3、C4和C5,共5 000个页面,其中训练集占4 000个,测试集占
2 3 2 山西 学报(自然科学版) 3 8(2)2 015
1 000个。对于x一NB分器,采用X-means算法(参数K的取值范围设为[ 2,8 ])将训练集聚类成多个类,其聚类结果如表4所示,表中每个类别的样本数均为8佣个。
表4 X-means聚类结果
在不同数量训练集的分类结果
对于X一NB分类器,为了降低聚类错误给分类带来的影响,对聚类产生的每个类别,选取距离聚类中心较近的一些样本对分类器进行训练,从而使得训练集中的样本相似性较高,减少了噪声数据的影响。实验通过改变训练集样本个数、计算总体准确率来比较x一NB分类器和NB分类器的分类效果,实验结果如图8所示。
由图8可以看出,相比于传统NB分类器,在训练集数量增加的条件下,结合x-means聚类的NB分类器分类结果渐渐优于NB分类器,总体上取得了较好的效果。同时结合X-means聚类的NB分类器可以实现自动分类,减少了对训练样本进行人工标识的繁琐过程。
4 · 3改ip地址实验3
为了验证本文提出的改进的Context Graphs方法的有效性,以Breadth First Search、Best First Search 和传统的Context Graphs方法作为参照,从收益率(Harvest Rate)和召回率(Recall)两个方面进行比较。
主题相关页面数 爬取的目标页面数
Harvest== Recall=
下载页数面 目标页面数
实验所用数据集有三个(1)Context Graphs方法训练集Tra 5;(2)种子URL数据集SeedURLSet; (3)目标页面集T““小用来计算召回率。TargetSet集合大小和SeedURLSet有关,一个SeedURL对应一个学院列表页面,对应一个或多个机构列表页面。表5显示了数据集的构成情况。
表5实验3数据集
Table 5 Data set of experiment 3
数据集 集合大小 数据来源
训练集
种子URL集 2佣所大学URL
1 000所大学URL college. phpeol. cru/college. php
目标页面集 学院列表页面:1 0佣个URL 机构列表页面:1 548个URL 进人大学主页后,人工搜集学院列表页面URL和机构列表页面URL
实验中,下载页面总量为10 000,分别统计下载页面量在1 000,2 000,3 000,4 000,5 000,6 000,7 000,
8 000,9 000,10 000时获取的主题相关的页面量。根据所得实验数据,计算收益率和召回率,实验结果如图
甘国华等:面向 领域的聚焦爬虫设计与实现 233
9、改ip地址所示。
收益率
Breadth First Search .Context Graphs
- Best First Search 一改进的Context Graphs
下载页面量
Fig. 9 Comparison of four methods in harvest 图9四种方法收益率比较
召回
Breadth First Search一Context Graphs
Best First Search 改进的Context Graphs
下载页面量
Fig. 10 Comparison of four methods in recall 图10四种方法召回率比较
实验结果分析:(1 )收益率分析
由图9可以看出,随着下载页面量的增加,四种方法的收益率逐步降低,但降低的幅度不同。出现下降趋势主要是因为在爬行过程中,虽然获取的主题页面数会逐步增加,但是获取的主题页面数和已下载页面数的增加幅度不同,一般前者小于后者,从而造成收益率总体上出现下降趋势。在收益率方面,基于传统的和改进的Context Graphs方法比基于Breadth First Search和Best First Search的爬虫方法都好一些。在下载同等页面数的条件下,传统的和改进的Context Graphs方法获取的与主题有关的页面数较多。而 Breadth First Search方法由于没有采用任何主题爬行策略,导致抓取的页面大部分和主题无关。Best First Search方法在爬虫过程中由于未考虑到“隧道穿越”问题,导致遗漏了部分主题页面。同时可以看到改进后的Context Graphs方法较传统的Context Graphs方法收益率得到了提高。
(2)召回率分析
由改ip地址可以看出,随着页面下载量的增加,四种方法的召回率逐步上升。出现上升趋势是因为随着下载页面数的增加,主题相关页面数也在增加,因此召回率也随之增加。而不同方法上升幅度不同的原因与收益率有关,在下载页面数相同的情况下,收益率越高,主题相关页面数越大,则召回率越高。同时可以看到在召回率方面基于Breadth First Search和Best First Search的爬虫方法都比较低,而相对于基于传统的Context Graphs方法,基于改进的Context Graphs方法在召回率上也得到了提高。
5结论
本文针对大学领域设计和实现了一个聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的
大客户
微信
置顶