基于WWW的聚类引擎研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:a15813225802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富,现有的万维网信息检索技术和方法已经不能满足用户对信息的快速性与有效性要求。搜索引擎是目前最主要的万维网信息检索工具,然而搜索引擎的效果还不能令人满意。因此研究新的万维网信息检索技术已成为一个很重要而又很困难的问题。数据挖掘旨在提取数据中隐含的、未知的、有用的、非一般的模式或知识,又称数据库中的知识发现。聚类是数据挖掘的基本方法之一。聚类通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。随着社会的信息化和各种媒体的数字化,万维网数据挖掘逐渐成了一个研究热点。信息检索技术和数据挖掘技术相结合,可使搜索引擎上升到高的理论与应用水平。把新的万维网数据挖掘技术应用到搜索引擎中去,为万维网信息的利用提出了新的解决方案,将会引起搜索引擎方面一场新的革命。因此,显而易见进行基于WWW的聚类引擎研究有着十分重要的意义。本论文的研究目的是在系统地回顾了万维网信息检索、数据挖掘、搜索引擎以及聚类的应用研究现状基础上,总结目前存在的问题,并提出相应的解决方法。特别希望通过聚类方法自动组织搜索引擎的搜索方案,便于用户发现真正需要的万维网信息。本论文主要的研究内容和创新工作体现在以下几点:(1)对万维网信息检索、数据挖掘、搜索引擎以及聚类的应用研究现状进行分析和概述,进而指出基于WWW的聚类引擎研究是一个新的具有挑战性的前沿性课题。(2)研究基于Rough集理论中的差异矩阵,并在引入扩充差异矩阵的基础上,提出了一种基于Rough集理论的不完备数据分析方法ROUSTIDA。该方法充分利用Rough集分析方法的优点,只需利用信息系统提供的信息,不需要另外附加信息,计算简单、直观。(3)分析以关键词组作为自然语言信息特征的优点,构建利用后缀数组进行关键词组提取的方法,提出了发现右完整字符串的算法find_和得到文档完整子字符串数组的算法combine__,并进一步对所提的算法进行分析,最后给出实例以验证所提算法的正确性与有效性。(4)介绍遗传算法的概念、算法结构、运算算子及主要存在问题;提出了一<WP=5>种基于遗传算法的聚类新方法MGA,该方法有两个主要优点:一是通用性强,可以对包含数值属性和符号属性的大数据集进行聚类;二是提高了数据挖掘的效率与质量。(5)构建了一个基于数据挖掘的搜索引擎原型系统,它能够以语义的、在线的、树型的方式对搜索引擎的搜索结果进行聚类(即SOTC方法),并可处理中文万维网信息。(6)论文最后除对研究工作进行总结外,还对今后的研究方向进行了展望
其他文献
良好的人文环境可以为社会主义新农村建设提供思想保证、智力支持、法律保障和道德支撑,这也正是优化人文环境的意义所在。农民的思想观念陈旧落后,科学文化素质、法律素质、道
如今城市供热管网的建设经常采用直埋敷设方式,当直埋敷设的供热管道出现泄漏时,由于管道埋深、直埋管结构、漏点区域环境嘈杂、管线走向、测漏人员的检测技术及经验等因素,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
南京特殊教育师范学院的公共事业管理专业以服务残疾人为特色,从目标定位、模式构建、课程设计、教学组织、保障体系、建设成效等方面,探索公共事业管理专业人才的培养路径,
结合某军队中心医院参加实战化卫勤保障任务演练实践,按照医院野战医疗所临战动员准备、组织指挥协调、展开撤收实施、总结经验等各阶段组织程序,重点分析野战医疗所在实战化
哲人说沉默是金。 沉默都是金吗? 当然不都是,有的甚至连破铜烂铁都算不上。例如,当流氓光天化日之下街头侮辱良家妇女时,围观路人的沉默就不是;当有人落水生命悬于一发时,
网络演算(Networkcalculus)是一种基于非线性代数的确定性排队理论,目前已广泛应用于计算机网络建模与性能分析,特别是为计算延迟和积压等端到端性能参数的确界提供了有效工具
经国务院批准,2007年6月18日,财政部和国家税务总局同国家发改委、商务部、海关总署发布了《财政部国家税务总局关于调低部分商品出口退税率的通知》,规定自2007年7月1日起,调整
Web服务作为面向服务体系结构(Service Oriented Architecture,SOA)的主要实现方式,得到了工业界和学术界的普遍重视。它的出现使得“软件就是服务”的设计理念逐渐转变成一