基于人工神经网的WEB挖掘方法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:ffff2155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着 Internet 的日益普及和广泛应用,使得客观世界的信息呈几何级的速度增长着,出现了信息爆炸的现象,逐渐发展起来的数据挖掘技术也随之快速向前发展着。目前,互联网已经和我们的生活密不可分,它可以说是一个巨大的、分布广泛和全球性的信息服务中心。它涉及新闻、广告、金融信息、教育、政府、电子商务和许多其他信息服务。计算机网络已经把世界的各个角落连接成一个信息资源巨大的网络世界,网络用户也日益增长。因此进一步改善Web服务器系统的性能、提高Internet信息服务的质量,是非常有必要的,对WEB内容有效的聚类,可以为巨大的用户群提供更好的服务。基于上述现实情况以及我们目前所面临的问题,才使得我有撰写本论文的动力,希望自己能在针对WEB的数据挖掘方面奉献自己的一点微薄之力。 在目前流行的众多的数据挖掘技术中,人工神经网络技术近些年发展迅速,被应用于生产生活的各个方面,在实际生活中发挥着重要的作用。人工神经网络具有强大的非线性映射功能,无需单独建模等优点。本文回顾了以往的 Web 挖掘的一些方法,并在以往挖掘方法的基础之上,提出了利用人工神经网的方法对 Web 页面内容进行较高效率的挖掘的方法。 针对WEB网页的特点,在本文中对WEB页面进行预处理与特征提取从而得到试验需要的数据。然后利用 SOM(self-Organization feature Map)网络对得到的WEB文本进行聚类,并得到了比较好的聚类效果,但在聚类过程中存在类目过细的缺点,这是由于样本选择过细的造成的,可以进一步完善。
其他文献
P2P网络技术被广泛应用于文件共享、分布式计算和协作系统等各个领域。但长期以来,各个P2P研究组织一直未达成一致的P2P标准,每一个P2P产品供应商都使用不兼容的技术使它的用户
科学计算可视化,是计算机图形学的一个重要研究方向,是图形学的新领域。其中面绘制和体绘制是实现三维曲面重构两种重要手段,面绘制算法主要是按照给定的阈值从体数据中提取
随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中
EEG是脑电活动的记录,其中包含了大量的生理与病理信息。当大脑正常时,神经细胞群放电是有规律的自发性放电,当大脑患有不同疾病时,如:脑肿瘤、脑炎、癫痫、脑出血或缺血性疾
入侵容忍是将容错方法运用于安全领域的一种应用程序。该技术假设系统漏洞并不能被完全地消除,外部攻击者或者恶意的内部人员有可能成功地利用这些漏洞对系统进行非法的访问
在使用计算网格共享地理上分布的丰富的异构资源求解大规模问题过程中,使用的资源(包括网络带宽)动态变化,计算网格获取实时、准确的动态性能信息(包括网格资源性能信息和网格
股票预测研究是金融大数据的一个应用研究方向,随着信息技术的发展,股票预测研究不仅仅拘泥于基本分析方法,而是更多地使用技术分析方法,如机器学习方法,并且取得了具有一定意义的研究成果。其中,神经网络方法,为股票预测研究提供了新的建模方法。本文在研究股票预测问题的相关背景、方法或模型以及相关理论知识的基础上,将视角这个概念引入到股票预测问题的研究中,从视角出发来研究股票预测问题。本文的主要研究工作有以下
进入90年代以来,尤其是近年来电信技术、网络技术和计算机技术迅猛发展,电信服务产业的自然垄断特性日益减弱,已逐渐具备了市场化发展的基础。发达国家已经在电信服务市场自由化
程序演化是根据某些法则从一个程序生成另一个新的程序,这两个程序在语义上是等价的,通过一系列保证正确性的对源程序的演化,进行算法和数据结构的求精,最终将源程序演化成一
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,可以获取这些隐含信息。当本体推理结果中出