论文部分内容阅读
中图分类号:TP3文献标识码:A文章编号:1671-7597(2010)0610065-01
随着计算机技术和互联网技术的飞速发展,大量信息在世界范围内得以共享,一方面,人们通过网络可以快速方便地获取各种信息;另一方面,通过普通浏览的方式很难在信息的海洋中找到真正需要的信息。面对数以亿计,不断更新的网页,目前的搜索引擎存在一些问题,如对任一范围的话题,返回的文档数过于庞大,且许多文档与话题相关性不大或者很多与话题相关的文档可能并不包含相应的关键字等,这样就降低了检索结果的精度。因此,如何进行有效的Web数据挖掘成为当前数据挖掘技术研究的热点,而XML技术为Web数据挖掘带来了新的解决方法。
1 web数据挖掘的复杂性
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。也就是说,数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。Web数据挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。
第一,从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。
第二,Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为半结构化数据。
第三,Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。
2 XML技术
XML(eXtensible Markup Language)是由万维网协会(W3C)设计,特别为Web应用服务的SGML(Standard General Markup Language)的一个重要分支。总的来说,XML是一种中介标示语言(Meta-markup Language),可提供描述结构化资料的格式,详细来说,XML是一种类似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都能读出和写入的世界语。
2.1 XML技术的主要特点
XML和HTML一样使用一组元素作为标记语言,但和HTML不同的是,XML不再是一种单纯的标记语言,而是一种定义语言。XML主要有三个主要素:模式可扩展式语言和可以扩展连接语言。模式规定了XML的逻辑结构,定义了XML的文件的元素、元素的属性以及元素和元素之间的关系,它可以帮助XML的分析程序效验XML的文件标记的合法性。
2.2 XML在Web中的应用
促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。
3 基于XML的WEB数据挖掘
XML可以通过以简单开发扩展的方式描述结构化的数据,XML补充HTML,被广泛用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表示出来。CSS和XML为数据的显示提供了公布的机制。数据可以通过XML更新。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个使用者的界面就能够显示出来。但目前,只要一条数据变化了,整个页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发布一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义性及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据库间进行传递。总之,在这类应用中XML解决了数据的统一接口问题。但是,与其它的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAC来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范。
获取信息源时,需考虑以下因素:信息源是否是在可靠的网络连接上生成可靠的数据?信息源从现在起将存在多久?信息源的布局结构有多稳定?一旦确定了信息源,就将数据从HTML转换成XML。返回一个XML文档作为结果。
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。
随着计算机技术和互联网技术的飞速发展,大量信息在世界范围内得以共享,一方面,人们通过网络可以快速方便地获取各种信息;另一方面,通过普通浏览的方式很难在信息的海洋中找到真正需要的信息。面对数以亿计,不断更新的网页,目前的搜索引擎存在一些问题,如对任一范围的话题,返回的文档数过于庞大,且许多文档与话题相关性不大或者很多与话题相关的文档可能并不包含相应的关键字等,这样就降低了检索结果的精度。因此,如何进行有效的Web数据挖掘成为当前数据挖掘技术研究的热点,而XML技术为Web数据挖掘带来了新的解决方法。
1 web数据挖掘的复杂性
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。也就是说,数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。Web数据挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。
第一,从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。
第二,Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为半结构化数据。
第三,Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。
2 XML技术
XML(eXtensible Markup Language)是由万维网协会(W3C)设计,特别为Web应用服务的SGML(Standard General Markup Language)的一个重要分支。总的来说,XML是一种中介标示语言(Meta-markup Language),可提供描述结构化资料的格式,详细来说,XML是一种类似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都能读出和写入的世界语。
2.1 XML技术的主要特点
XML和HTML一样使用一组元素作为标记语言,但和HTML不同的是,XML不再是一种单纯的标记语言,而是一种定义语言。XML主要有三个主要素:模式可扩展式语言和可以扩展连接语言。模式规定了XML的逻辑结构,定义了XML的文件的元素、元素的属性以及元素和元素之间的关系,它可以帮助XML的分析程序效验XML的文件标记的合法性。
2.2 XML在Web中的应用
促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。
3 基于XML的WEB数据挖掘
XML可以通过以简单开发扩展的方式描述结构化的数据,XML补充HTML,被广泛用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表示出来。CSS和XML为数据的显示提供了公布的机制。数据可以通过XML更新。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个使用者的界面就能够显示出来。但目前,只要一条数据变化了,整个页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发布一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义性及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据库间进行传递。总之,在这类应用中XML解决了数据的统一接口问题。但是,与其它的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAC来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范。
获取信息源时,需考虑以下因素:信息源是否是在可靠的网络连接上生成可靠的数据?信息源从现在起将存在多久?信息源的布局结构有多稳定?一旦确定了信息源,就将数据从HTML转换成XML。返回一个XML文档作为结果。
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。