发布时间:2019-11-25 18:45:39
【摘 要】: 互联网的快速发展,导致信息采集技术的不断进步。 为解决针对不同Web网站的定向信息采集问题,本文介绍了一种基于Web的定向信息采集系统的实现更改电脑ip地址,经实践证明,该系统具备良好的通用
性,采集准确率高。
【关键词】:信息采集;定向采集;页面解析更改电脑ip地址
引言
随着互联网的快速发展更改电脑ip地址, 网页数量的激增, 网上各种各样的资源让人应接不暇, 越来越丰富的信息呈现在用户面前。 互联网信息的获取方式通常靠手工去信息源获取, 比如用 web 浏览器获取 web 页面。 但仅靠手工获取全部信息,则会大大增加人的工作量。同时面对海量的信息, 如何在信息的海洋中快速地定位人们所需要的信息,又是一个难题摆在人们面前。基于以上考虑,笔者研发了基于 web 的定向信息采集系统,允许人们定位 web 网站中感兴趣的某一部分信息, 由系统做到定向采集,自动更新。
本文将依次介绍系统的框架, 系统涉及的关键技术,包括页面解析技术,链接采集技术等核心技术,以及系统的实现与验证过程。
1.系统框架
系统主要分为页面解析,信息定制(链接采集),链接的正文采集,自动更新四个模块。系统框架如图 1 所示:
2.关键技术
2.1 页面解析
当用户向系统中提交某一网页的 URL 时更改电脑ip地址, 为使得用户能够在可视化环境下定向采集网页中的某一部分信息,系统首先必须要对该网页进行页面解析,过滤掉无用冗余的信息,提取网页中的主要信息。 其次,在此过程之后,将解析后的页面结果提供给用户,供用户在可视化的环境下实现对网页信息的定制。 页面解析技术的主要步骤为:获取网页的源代码,过滤 JavaScript 脚本,输入标签以及图片标签,获取 div 及 table 标签并去重。 页面解析流程如图 2 所示:
选取网页中 div 及 table 标签作为页面解析中最终获取的网页内容,其优点很多,最重要的一点是当前互联网中的许多网站,均采用 div+css 或者 div 与 table 的嵌套布局,经过对网页源代码中无用信息的过滤,获取这两种标签的页面内容往往便能获得网页的主要信息。 另外此两种标签也为解析后页面的模块化奠定了基础,例如网页采用纯 div+css 布局,则解析后的网页则可按不同的 div 标签组分块, 每一块中包含信息链接,将信息呈现给用户时,实现用户对不同模块的可视化定制。
在页面解析的过程中, 为提高网页解析的速度及准确性, 系统采用 HtmlParser 作为辅助工具。 HtmlParser 是一个纯的 java 写的 html 解析的库, 由开源组织 Apache 提供,主要用于改造或提取 html。 它能超高速解析 html,而且不会出错。现在 HtmlParser 最新版本
为 2.0。
基金项目 1:南京航空航天大学大学生科技创新基金资助项目(20110104170222) 2:常州佰腾科技公司项目,企业竞争情报自动采集系统资金支持
在 HtmlParser 的支持下,在获取网页源代码前,正确获得网页的编码格式至关重要,众所周知,互联网上的网页在设计阶段均规定了自身的编码更改电脑ip地址, 针对特定的更改电脑ip地址
2011 年第 11 期
网页必须使用其规定的编码格式去解析采集其内容,否则得到的信息将会产生乱码问题。 例如 Utf-8 的网页不能够使用 GBK 的编码格式去解析采集,其他亦同理。 因此系统首先将根据网址 URL 获取其网页编码。具体的算法的思路是: 按照预先设定地编码顺序,如 gbk,gb2312,utf-8,gb18030 等, 选取某一编码格式假定为网页的编码, 利用 HtmlParser 按照此编码格式去获取网页信息,如果能够正常获得,则此编码正确,否则尝试下一类型编码,直至找到正确为止,经过大量的网页解析测试,该方法能够正确地获取页面编码,得到无乱码的网页信息。
由于网页中的 JavaScript 脚本容易使解析后页面出现 JS 代码,并且输入标签,图片标签对页面的主要信息无意义, 所以必须要对网页中的这些内容进行有效过滤。
页面解析的核心是对页面 table 及 div 标签的处理, 基于的考虑是因为当前 web 页面中的主要内容都存放在 table 及 div 标签中。
首先通过 HtmlParser 在不同的方法中获取网页的更改电脑ip地址 table 及 div 标签内容,保存在两个集合中。 其次,通过了解 HtmlParser 对嵌套标签的采集原理可知, 仅靠 HtmlParser 获得的嵌套标签内容重复性大。 而 div 及 table 标签又同为嵌套标签,即复合标签,如果没有很好的过滤算法,那么集合中的网页元素重复性很大。因此必须通过过滤算法, 对 list1,list2 (假定 list1 中存放 table 标签内容,list2 中存放 div 标签内容) 进行过滤,去除所有的重复信息。这里就涉及到对 list1 及 list2 的去重算法。
系统的去重算法是, 首先对 list1,list2 进行分别的过滤,即确定 table 集合中没有重复信息,div 集合中自身没有重复信息,然后将两者合并为一个集合,过滤掉两者之中共有的重复部分 (原因是 div 标签中可能嵌套有 table 标签,同样 table 标签中可能嵌套 div 标签)。具体的算法原理是,循环 list1 的第一个元素,如果这个元素的内容在 list2 中不含有,则将其加入到 list(最终需要获得的集合)中,相反则不添加。 则最终可获得
19
页面解析过程结束后, 便可将最终得到的 div 及 table 内容集合在浏览器中(系统采用 B/S 架构)显示给用户,用户可点击不同的模块进行信息的定制,在每一个模块(按 table 及 div 划分)中,显示的内容是标签内的链接,用户点击不同的模块,便可对不同模块中的链接进行采集。 一次采集后, 该信息便为用户的定制信息, 以后系统将按时对该网页的此模块信息进行增量更新,提供最新的定制信息给用户。
2.2.2 链接正文采集
为提高系统采集的速度及效率更改电脑ip地址, 信息定制过程所采集的全部链接,链接背后的正文并没有立即采集,而是当用户第一次点击某一链接时, 系统根据用户点击的链接,在数据库中查询出此链接的数据信息(如链接的 Url),根据此 Url 获取原网页新闻的正文,这里重要关注地问题是,必须目标链接的文字(及<a></a>内的文字)默认为该新闻的标题,针对该标题,便可正确定位新闻正文的位置,正确地获取正文信息,此时再将此信息保存至本地数据库中。
2.2.3 自动更新
系统将确保经常性地跟踪已采集网站的用户定制栏目,若网站此栏目有新闻更新,系统会将其自动更新至用户的相应数据库中,确保用户一次定制,永久跟踪的便利。 这里的自动更新,涉及到两个步骤,第一步最初在用户进行信息定制时, 系统将用户定制栏目的信息详细地保存至数据库中,供更新时候。第二步当一个合适的更新时机出现时 (例如每天固定时间系统对全部用户自动更新的频道进行更新操作以及用户登录系统后, 系统也会在后台对这一用户的全部信息进行更新,这两种更新机制,将确保系统内信息实时跟踪的及时性),系统会更新用户频道内的信息(前提是该频道开启自动更新功能),并且将最新的新闻链接,添加醒目的红色[NEW]字提示给用户。
3. 系统实现与验证
图3 根据网址解析后的可视化网页及用户点击不同栏
目进行定制 (下转第 3 页)
基于以上系统架构及关键技术更改电脑ip地址, 采用 Java 编程语言,我们最终研发出了“科信”定向信息采集系统。系统界面截图如图 4 所示:
2011 年第 11 期
生误导。这就需要根据行高 hi,对于小于 hi/3 的区域进行合并,认为他们属于同一个文字或谱字。
2.3 谱字分割保存
对于定位好的谱字,将谱字用矩形包围,将矩形的左上角和右下角的坐标按乐谱顺序保存到一个 txt 文档中,便于后期的分割和识别,可以直接读取 txt 文档确定位置。
图8 像素点选取效果图
3、结论与展望
现阶段工尺谱保存形势严峻, 利用信息化的手段保存研究工尺谱非常有必要。 本文主要对工尺谱分割的整个过程进行了逐步的分析与解释, 对于同类的分割算法进行了比较分析和评价。 选用了直接投影技术作为分割工尺谱的主要技术,经过实验证明,投影技术分割背景较简单的工尺谱具有较高的成功率。
3
参考文献:
[1]陈泽民.工尺谱入门[M].北京更改电脑ip地址:华乐出版社,2004
[2]吴晓萍.中国工尺谱研究[M].上海:上海音乐学院出版社,2005 [3]潘知枭,周昌乐.古琴减字谱图像的文本切分与提取[D] .厦门大学智能科学与技术 2007
[4]唐伟伟.视频图像中文本定位与提取的方法研究[D] .南京理工大学控制理论与控制工程 2009 [5]曲宇涛.中文手写体算法的研究[D] 吉林大学通信与信息系统 2009.5
[6]游达章, 张建钢, 甘勇. 位图图像灰度化的方法及编程实现广西工学院学报[N] 2004.3
[7]庄军,李弼程,陈刚. 一种有效的文本图像二值化方法[J].微计算机信息,2005,8.
[8]陈荣鑫,陈维斌. 南音工尺谱排版软件的设计与实现.计算机工程与设计.2005.8
[9]顾耀林, 汪燕.基于投影技术的增强现实注册方法[M]. 计算机工程与应用.2007.7
[10]王育峰,赵力.乐谱识别中音符分割技术的研究[M].东南大学信息科学与工程学院.2009.2
[11]The Study and Prototype System of Printed Music Recognition. Proceedings 2003 International Conference on Neural Networks and Signal Processing ,IEEE,2003,P1002-1008 [12]Chinese Gong-Che Notation Musical Score Image Segmentation Based on An Anticlockwise Rotation Extension Algorithm, CiSE 2009,IEEE Catalog Number CFP0926H-CDR, Library of
Congress 2009903597,ISBN 978-1-4244-4507-3,2009
经数据证明更改电脑ip地址, 系统对网站采集的采集率达到 80% 以上,能够较好满足系统的设计需求。
4.总结
以上讨论了一种 Web 信息采集系统的设计与实现。 实践证明,本 Web 信息采集系统能够对网页信息进行定向采集,具有良好的通用性,对今后的信息处理提供了充分的支持。
随着人们对 Web 服务种类和质量要求的提高,对信息采集系统的要求也越来越高。在以后的研究中,我们将继续对系统进行完善,例如信息采集的精确性,页面解析结果的进一步加工处理等方面, 以便使本信息采集系统具有更好的性能。
大客户
微信
置顶