数据流频繁项挖掘系统的研究和实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ahaqwjtyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,世界已经走向信息经济时代;信息资源并不稀缺,稀缺的是发现信息资源、综合信息资源的手段。搜索引擎就是因此应运而生的。但是随着可搜索资源和搜索引擎使用者的不断增加,搜索引擎的查询性能成为一个制约其发展的瓶颈。改善搜索引擎的性能可以从不同方面入手,如加大服务器集群规模,推出各种垂直搜索,优化搜索目标排名方案,提供个性化搜索服务等。本文试图从分析查询输入入手,采用数据流挖掘技术,研究和改进一种面向数据流的频繁项挖掘算法,并实现一个频繁项实时统计系统,指导搜索搜索引擎的索引组织和网页抓取,从而提供更高效的搜索性能、更准确的查询结果。本文针对目前的Lossy Counting算法在处理大数据流量的事务数据流上没有空间需求上限,处理速度随着数据量增大而降低的特点,提出了一种针对这种算法的改进算法Lattice Lossy Counting。通过设置时间窗格的方法是原算法具有挖掘结果具有实效性,并且为控制挖掘过程设置所需空间的上限;通过将算法拆分成两个阶段处理,在不影响精度的前提下提高算法处理速度。以使其符合在大数据流量长时间处理的情况下的应用需要。另一方面,为了测试算法性能、实现算法应用,本文提出了一套面向搜索引擎的、基于数据流的频繁项挖掘系统——Fenster。该系统可以处理由查询产生的输入事务流或由点击产生的事务流,采用在线算法挖掘频繁项。根据应用环境的区别,本文分别介绍了Fenster的两种运行架构:集成环境应用于小型应用和算法性能测试;分布式的架构应用于大规模的应用。通过实验,本文论证了这种新的算法在时间性能和空间性能上对于LossyCounting算法的改进是卓有成效的,具有广泛的应用前景;验证了该基于数据流的频繁项挖掘系统的可用性,并提出了该系统未来改进的方向。除了搜索引擎之外,本系统提供的高度可配置性能力让系统在其他领域的应用成为可能。同时,数据流频繁项挖掘研究的不断深入也让本系统在诸如股票分析、人群行为分析、商业行为分析、天气和环境检测等诸多方面具有广阔的应用前景。
其他文献
基于Web的智能计算机辅助教学系统是近几年来随着计算机网络技术和人工智能理论迅速发展而新兴的研究课题,同时也是一个涉及计算机科学,教育学,心理学,认知科学和行为科学的复杂
传统的磁盘阵列系统在进行备份的时候需要长时间的“备份窗口”,这在要求7×24小时服务的现代商业应用中是不可接受的。快照技术是缩短“备份窗口”的良好解决方案,在磁盘阵
随着计算机技术的飞速发展,很多领域对分类方法提出了新的要求。如在生物信息学方面,人们通过DNA微阵列芯片实验可以得到基因表达谱数据,由于其数据高维的特点,如何从基因表达谱
随着油田开发的不断进行,在开发过程中积累了大量的生产、测井、试井资料。这些资料包含了丰富的油气藏信息,但因为缺乏相关的应用系统,使得这些宝贵的信息未得到充分的利用。因
笔迹鉴别是通过分析手写笔迹的书写风格来判断手写人身份的一门技术。近年来,社会需要对笔迹鉴别的研究提出了新的要求,模式识别和人工智能等相关学科的进展为笔迹鉴别的发展提
心血管疾病已成为全球卫生保健和卫生资源的沉重负担,具有病发突然、随机、高猝死率特点,要提高心脏病的救治系数,对心脏病人的实时性监护是解决问题的关键。分析现有心电监测系
无线网络依靠其提供随时随地方便接入的特点,在近几年发展速度已经领先于传统的有线网络,成为计算机网络领域最具发展前景的技术。为了提供无线接入环境,不仅硬件环境需要大范围
规划是人工智能研究的一个重要领域,特别是动态不确定环境 (如真实世界)中的规划问题,具有重要的理论意义和极其广泛的应用背景。 部分可观察的马尔可夫决策过程(Partially
当前基于内容的视频检索系统主要利用视频图像的基本特征,以及综合各种视觉特征进行联合检索,其缺点是不能有效地提取并利用视频流中的语义信息。如何自动提取视频语义信息,使其
随着计算机技术、无线网络技术、嵌入式系统的发展,传统的桌面计算模式已经不能满足人们的需要,人们渴望能够随时、随地、透明、方便的享受现有的计算能力和信息服务。普适计算