基于web的网页链接与正文抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jjJJ012689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页链接的抽取是指将网页源代码中的<a>标签的href属性的取值按照用户的需求提取出来。目前网页链接的抽取主要是将网页中全部链接抽取出来,并没有对链接进行分类,抽取的结果包含大量的无用链接,与用户需求不符。本文按照新闻主题的不同,将网页链接分成主题链接和噪声链接两类,而噪声链接又分成外指噪声和内指噪声。在此基础上,本文采用了基于规则的机器学习技术获取页面的链接模式。首先利用在线算法与平摊分析对链接页面分析,其次制定了样本选择规范对链接样本进行选取,而后将学习到的链接模式表示为正则表达式,最终将链接模式与页面所有链接进行匹配,获得主题链接。该方法的优点是对更新频繁的页面进行链接抽取时,抽取时间大大缩短,克服了每次对同类网站页面进行相同的页面分析,适合周期性的对同一页面进行链接抽取。方法实现了快速、高效的链接抽取。网页正文的抽取是指将存在于网页中的,与网页主题相关的、结构完整的文本提取出来。传统的方法是将网页结构表示成树,但建树与查找树的过程中,空间与时间复杂度都过高。而且网页标签嵌套现象普遍,在后续正文抽取中,理清各文本段落间的关系需要反复遍历其祖先及后代,效率低下。本文提出了基于线性化的段落划分聚类的网页正文抽取方法。该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过原始段落集的过滤划分、段落聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文。该方法克服了对网页建树的复杂过程,具有简单、快速、准确的特点,实验表明该方法的抽取准确率可以达99%以上。利用上面的两项技术,本文初步实现了网站新闻定制系统和大规模网页新闻类语料的自动下载系统,系统具有准确度高、鲁棒性好、响应时间快的特点。此外,本系统已经集成到网页分类检索系统中,是一种全新的web信息检索方式。这是本文的网页链接抽取、网页正文抽取技术和自然语言处理中的文本分类技术相结合的产物,体现了本文研究的重大应用价值。
其他文献
随机森林算法(Random Forest)是机器学习领域中一种普适性良好的数据挖掘方法。它在决策树算法的理论之上结合bootstrap重采样方法,集合多个单树型分类器,最后结果通过投票的
数据通信是目前发展最迅速的通信业务之一,SDH/SONET光通信网络以其高速率高性能,在当今的通信网络中被广泛采用。CPOSRouter数据接入设备是专为用于利用STM-1 SDH信号中的低
随着科学技术的发展,科技研究成果的保护越来越受到国家和企业的重视。专利作为一种知识产权保护形式,同样受到人们越来越多的关注。由于中国经济起步较晚,与外企相比,国内大
无线传感器网络(Wireless Sensor Network,WSN)是以微机电系统结合嵌入式技术,由大量多功能传感器节点以自组织形式构成的监测网络。目前,不仅仅在军事和科学研宄中其价值得
流形学习自2000年提出以来受到了人们广泛的关注并取得了长足进展。传统流形学习方法需要足够多的训练样本学习高维数据的低维嵌入表示,所以,在单样本训练情况下,流形学习仍
本论文结合上海科委的智能手机项目,在以Hybus的pxa272开发板和展讯的SM5100B通讯模块为硬件开发平台的基础上对智能手机系统软件展开研究,提出了一种基于嵌入式Linux的智能
运行时验证是一种轻量级的形式化验证方法,它通过检测目标系统的当前执行是否满足给定的高层规约来实现对目标系统的验证。对于复杂的验证系统,运行时开销有时是非常巨大的。减
本课题的任务是为安全微处理器LX-1164设计片内的存储控制单元与高速缓冲存储器控制器。设计实现了一个片上内存管理单元与Cache控制器的设计,提出了一种64位超标量微处理器
软件测试是保证软件产品可靠性和正确性的有效方法,其中设计和生成有效的测试用例是决定测试质量的重要因素之一,而测试用例自动生成可以节省测试时间,降低开发成本。模型检验是
本文依据软件工程开发软件的严格要求,着重阐述了药品信息管理数据库系统设计,介绍了药品信息管理系统的详细设计和开发过程。 鉴于医药管理信息化已经成为医药行业发展的大