【摘 要】
:
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中
论文部分内容阅读
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用关键有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息,具有十分重要的现实意义和广泛的应用前景。
数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前,数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据,如何对分布于网络环境下的文本数据进行挖掘还正在研究。本文首先简单阐述了数据挖掘和知识发现的基本理论内涵;分析了网络信息检索与数据挖掘的特征与特性,特别是Web数据挖掘和基于HTML的文本数据挖掘;进而探讨了基于Web的文本数据挖掘研究与应用的一系列问题,包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及实验系统的框架结构和功能模块的分析与设计等,力图为该方向的深入研究提供一些有益的思路。
本文针对Web环境下中文文本信息挖掘的具体问题,侧重研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于决策树的中文文本分类、聚类算法,在Web中文文本信息挖掘模型的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并给出了Web环境下中文文本信息挖掘模型的一种设计思路并实现了部分功能。
其他文献
水表、电表、燃气表(三表)数据抄送主要经历了手工抄表、IC卡预付费表、有线抄表以及基于蓝牙技术的无线抄表等阶段,这些抄表方式有各自的优点,但同时也有其局限性,因此现有抄表
随着计算机和网络技术的飞速发展,网上数字视频大量涌现,数字图书馆、视频点播、远程教学等大量多媒体技术已经日益普及。视频信息检索的复杂性远远高于简单的文本信息检索,
有向传感器网络作为无线传感网络的一种高级形式,在诸多特殊场景中得到了广泛利用。由于其节点多为无线工作方式且能量无法得到补充,因此必须通过合理的节点调度来提高节点利
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法。在解决许多复杂的组合优化问题方面,展现了优异的性能,但在解决实际问题中仍然不够成熟,还有很大的发
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类分析作为其重要的组成部分,当前,在模式识别,数据处理,图
近年来,随着云计算规模的不断增长,高能耗已经成为云计算领域突出的问题,严重制约着云计算的发展。合理的资源分配和任务调度可以有效降低云计算系统的空闲能耗和执行能耗,从
微博是基于用户关系消息共享、传播和获取的一种媒介。与其他的网络应用平台相比较,微博具备更出色的时效性、便捷性和原创性,用户可以随时随地分享讯息,并且还可以和好友随时随
网格是构筑在互联网基础之上的一门新兴的分布式计算技术,它不同于一般传统的分布式计算,网格计算着重于大规模的资源共享、创新应用,并在一定情况下定位于高性能计算,已经成
随着对Web服务技术研究的不断深入,为了实现智能化的Web服务提供,出现了语义Web服务。语义Web服务是Web服务和语义Web结合的产物,它的目标是通过对Web服务进行语义描述,使其
随着图像传感器技术的发展,多传感器图像融合技术得到了迅猛发展,已经成为图像理解、计算机视觉等领域中一项重要的技术。多传感器图像融合就是把多个不同传感器获得的同一场景的多幅图像,或同一传感器在不同时刻获得的多幅图像合成一幅包含输入图像相关信息的图像的过程。通过综合利用不同图像之间的互补信息和冗余信息,获得对该场景更为全面、更为准确的图像描述。在多传感器遥感图像融合技术中,关于多光谱图像和全色图像的融