论文部分内容阅读
随着Internet的飞速发展,它成为了迄今为止最密集、最丰富的信息来源。那么从这些海量数据中找到使用者感兴趣的信息逐渐成为人们关注的焦点。作为从 Web 文档和 Web 活动中抽取感兴趣的潜在的有用模式和隐藏信息的有效技术,Web 挖掘悄然兴起,备受关注。而XML由于具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,从而使用户能够对Web信息实施精确查询与模型抽取。因此XML与Web挖掘的结合将在数据挖掘领域内进行的研究推向了一个新的高潮。 本文首先从Web挖掘研究背景入手,介绍了数据挖掘相关概念,相比HTML而言XML 在 Web 挖掘应用中的优越性,以及 Web 挖掘的内涵和复杂性分析,Web 挖掘原理、特点、分类等等。 接着,阐述了如何实现Web内容挖掘的问题。 提出了使用标准web技术——HTML、半结构化数据模型、XML、Java——开发的一种基于 Web 的数据挖掘方法。利用对象交换模型OEM将Web页转换为XML文档,然后用Java实现从XML文档中抽取感兴趣的信息。通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的引用点,可以实现数据抽取的任务。 最后讨论了结构化信息的挖掘。使用有序树作为数据模型,提供一种从有序树中挖掘频繁引导子树的方法,帮助人们更有效的获取Web上的信息。