基于Web的病毒信息抽取方法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:wangshaohua11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。与传统的信息资源相比,Web上信息资源有着分布性、异构性、开放性、动态性和庞大性等特点,这些特点导致Web上数据的信息接口和组织形式各不相同、使得Web上的信息资源不能被有效的利用。因此出现了很多基于Web信息源的技术和应用,其中信息抽取技术是当前研究的一个热点。 信息抽取(Information Extraction,IE)的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起,这是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,能够对数据作自动化处理,从而实现用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。从大量的文档中抽取需要的特定事实是非常有用的。互联网上就存在着这么一个文档库,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,其意义是非常重大的。 本文实现了一种基于Web的快速从HTML页面中抽取病毒信息的方法,该方法将抽取信息按对象关系模型进行重组存放在数据库中,以支持查询及各种应用。将信息抽取过程划分为两个阶段:学习阶段和抽取阶段,学习阶段主要是利用少量的。HTML样本页面,用户根据实际的需求和选定的 HTML 样本信息的具体情况定义模式信息,同时对样本页面进行适当的标记得到样本记录,系统根据样本页面和样本记录形成抽取的知识库,该知识库包含抽取信息的抽取规则和关联规则;抽取阶段是根据学习阶段定义的模式信息,建立数据库,同时根据知识库对与样本页面相近的HTML页面进行信息抽取,将抽取出来的信息以数据库的方式存储和管理。这样抽取出来的信息符合用户的要求并且具有结构,因此抽取阶段既是信息抽取的过程,同时又是信息重构的过程。同时在抽取阶段中分为两个部分:抽取部分和集成部分。 基于这种抽取方法的原型系统可直接应用于Web查询和搜索,也可用于其它应用的数据准备,抽取效果良好。
其他文献
股票预测研究是金融大数据的一个应用研究方向,随着信息技术的发展,股票预测研究不仅仅拘泥于基本分析方法,而是更多地使用技术分析方法,如机器学习方法,并且取得了具有一定意义的研究成果。其中,神经网络方法,为股票预测研究提供了新的建模方法。本文在研究股票预测问题的相关背景、方法或模型以及相关理论知识的基础上,将视角这个概念引入到股票预测问题的研究中,从视角出发来研究股票预测问题。本文的主要研究工作有以下
进入90年代以来,尤其是近年来电信技术、网络技术和计算机技术迅猛发展,电信服务产业的自然垄断特性日益减弱,已逐渐具备了市场化发展的基础。发达国家已经在电信服务市场自由化
程序演化是根据某些法则从一个程序生成另一个新的程序,这两个程序在语义上是等价的,通过一系列保证正确性的对源程序的演化,进行算法和数据结构的求精,最终将源程序演化成一
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,可以获取这些隐含信息。当本体推理结果中出
随着 Internet 的日益普及和广泛应用,使得客观世界的信息呈几何级的速度增长着,出现了信息爆炸的现象,逐渐发展起来的数据挖掘技术也随之快速向前发展着。目前,互联网已经和我们
近年来,参数化设计技术以其强有力的草图设计、尺寸驱动修改图形等功能,成为产品设计过程中初始设计、产品建模及修改、多方案比较和动态设计的有效手段,越来越得到人们的重视。
随着网络技术和企业信息化的普及和应用,计算机安全变得越来越重要。入侵检测是计算机安全体系结构中的一个重要的组成部分,入侵检测技术是对系统或者网络审计数据进行检测分
数字化、网络化、智能化现成为企业信息化建设和应用的主要形式,我国的船舶工业正面对来自业务和技术两方面的挑战,业务上从单一转向规模化,技术上从集中发展到分布。应用服
互联网的快速发展和经济的全球化使得软件已深入、广泛地渗透到人类社会的各个方面,软件系统的应用规模和复杂程度迅速扩大。同时,社会对软件的需求也与日俱增。当前,软件生产能
随着Internet规模的不断扩大、应用不断增多,网络已经深入到我们生活的各方面,给我们日常生活带来极大的方便。许多机构为了保护系统的安全性,采用了防火墙、入侵检测和病毒保护