基于XML的Web挖掘

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:yu555497
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,它成为了迄今为止最密集、最丰富的信息来源。那么从这些海量数据中找到使用者感兴趣的信息逐渐成为人们关注的焦点。作为从 Web 文档和 Web 活动中抽取感兴趣的潜在的有用模式和隐藏信息的有效技术,Web 挖掘悄然兴起,备受关注。而XML由于具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,从而使用户能够对Web信息实施精确查询与模型抽取。因此XML与Web挖掘的结合将在数据挖掘领域内进行的研究推向了一个新的高潮。 本文首先从Web挖掘研究背景入手,介绍了数据挖掘相关概念,相比HTML而言XML 在 Web 挖掘应用中的优越性,以及 Web 挖掘的内涵和复杂性分析,Web 挖掘原理、特点、分类等等。 接着,阐述了如何实现Web内容挖掘的问题。 提出了使用标准web技术——HTML、半结构化数据模型、XML、Java——开发的一种基于 Web 的数据挖掘方法。利用对象交换模型OEM将Web页转换为XML文档,然后用Java实现从XML文档中抽取感兴趣的信息。通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的引用点,可以实现数据抽取的任务。 最后讨论了结构化信息的挖掘。使用有序树作为数据模型,提供一种从有序树中挖掘频繁引导子树的方法,帮助人们更有效的获取Web上的信息。
其他文献
团簇研究处于多学科交叉领域,是物理学、化学以及生物学的交叉点。分子团簇一般通过VanderWaals力弱结合或氢键结合的形式产生,通过氢键作用形成的团簇在许多化学和生物过程中
集成电路中的所有器件都是通过电源网格得到其所需的供电电压的。随着集成电路制造工艺的不断向前推进,尺寸的不断缩小,电源网格完整性分析也变得越来越重要了,互连线的电阻