【摘 要】
:
近几十年来,互联网的迅猛发展改变了人们获取信息的方式,从原始的纸质书本转移到了网络上。怎样能在互联网这个巨大的信息宝库中发现有价值的信息并为人们所用,至关重要。Web
论文部分内容阅读
近几十年来,互联网的迅猛发展改变了人们获取信息的方式,从原始的纸质书本转移到了网络上。怎样能在互联网这个巨大的信息宝库中发现有价值的信息并为人们所用,至关重要。Web信息抽取技术就是在这样一种情况下,产生、发展并发挥作用。其主要的目标是在web这种半结构化的信息池中,精准的获取有研究价值的信息。本文主要研究如何准确高效地从大量的web网页中,获取有价值的信息并规则化存储。具体工作如下:1、利用正则表达式对文本的处理,构建了一个基于正则表达式的增量式统一信息抽取系统。该系统可以对论坛,博客,新闻网站进行增量式爬取。应用统一的架构对大量的网站进行信息的采集和信息的抽取。在采集之前把相应的正则表达式存储在模板表中,每增加一个新的网站,只需要在种子和模板添加或修改信息即可。从而简化web信息抽取系统的构建,大幅度降低抽取系统的开发成本,增加该系统的可拓展性,减少后期维护的工作量。2、本文把基于正则表达式的信息抽取技术进一步应用到了实际系统中——图书馆信息采集系统。通过对国内各大高校图书馆馆藏资源检索系统的分析和研究,把这些系统分成四类,分别制定抽取策略。该系统成功采集抽取数据一千七百多万条,并规则化存储在数据库中。3、提出一种基于网页分块的BBS信息抽取技术,该算法不但保证了准确率且具有一定的普适性,减少人工的参与和开发的成本。首先,本文提出基于信息论的网页分块方法,进行噪音信息的去除。其次,根据BBS的评论信息具有一定的相似性的特点,本文在网页分块的基础上提出基于深度加权的DOM树相似度算法来抽取评论信息,在减少人工参与和开发难度的同时保证了正确率。本文提出的两种信息抽取算法可以快速精准地提取网页中的信息,在舆情分析和搜索引擎的信息抽取方面有很好的应用前景和参考价值。
其他文献
研究背景:类风湿关节炎(rheumatoid arthritis, RA)是一种病因不明的自身免疫性疾病,主要表现为对称性、慢性、进行性多关节炎,致残率高,严重影响患者的心理健康及生存质量。
目的 探讨一对一责任制陪伴分娩联合无创接生法在无创分娩中的应用效果。方法 将我院妇产科自2014年2月至2016年2月收治单胎自然分娩的足月产妇3 500例作为研究对象,随机将其
近些年,我国非政府组织数量正逐步增加,参与社区公共服务的环境也得到了重视和改善,但由于城市社区公共服务供给机制的不健全以及非政府组织自身建设存在的种种问题,导致当前
总结和归纳了国外学者对竞技体育中功能性体能训练的共性认识,提出功能性体能训练区别于传统体能训练的5个重要特点,即练习方法与目标运动方式的一致性,强调动作的整体性,强
密钥的安全性直接决定了密码系统的安全性,传统的密钥分配协议始终无法避免Catch22问题,而量子密钥分配协议,在海森堡测不准原理和量子不可克隆定理的保障下,具有无条件安全
在文廷式逝世100周年前夕,笔者随南昌大学教授郑晓江、张来芳等前往萍乡杨岐山瞻仰了文廷式墓。墓在著名的杨岐普通寺后苍翠的松林中。面对墓旁石碑上的对联“鸱号鸟东徙松木
我国自1993年推行《社会体育指导员技术等级制度》以来,社会体育指导员队伍迅猛发展,他们在全国社会体育的各个角落,发挥着巨大作用,现已成为推动群众体育发展的重要力量和构建体
农药为防治农作物病虫草害,保证作物高产方面发挥着巨大作用。但农药是把双刃剑,在带给人们巨大经济效益的同时也对生态环境造成了严重威胁。进入环境中的农药可能会对地下水
随着经济全球化的快速推进,货物贸易量特别是跨国贸易量急剧增长,跨国货物运输在经济发展中的重要作用越来越凸显。集装箱运输在国际经济贸易快速发展的背景下应运而生。作为
本文在受到零售商销售努力影响的市场需求下选择、设计、应用合适的供应链契约并建立相应供应链模型对采用无线射频识别(Radio Frequency Identification, RFID)技术前后的供