论文部分内容阅读
随着互联网的发展,世界已经走向信息经济时代;信息资源并不稀缺,稀缺的是发现信息资源、综合信息资源的手段。搜索引擎就是因此应运而生的。但是随着可搜索资源和搜索引擎使用者的不断增加,搜索引擎的查询性能成为一个制约其发展的瓶颈。改善搜索引擎的性能可以从不同方面入手,如加大服务器集群规模,推出各种垂直搜索,优化搜索目标排名方案,提供个性化搜索服务等。本文试图从分析查询输入入手,采用数据流挖掘技术,研究和改进一种面向数据流的频繁项挖掘算法,并实现一个频繁项实时统计系统,指导搜索搜索引擎的索引组织和网页抓取,从而提供更高效的搜索性能、更准确的查询结果。本文针对目前的Lossy Counting算法在处理大数据流量的事务数据流上没有空间需求上限,处理速度随着数据量增大而降低的特点,提出了一种针对这种算法的改进算法Lattice Lossy Counting。通过设置时间窗格的方法是原算法具有挖掘结果具有实效性,并且为控制挖掘过程设置所需空间的上限;通过将算法拆分成两个阶段处理,在不影响精度的前提下提高算法处理速度。以使其符合在大数据流量长时间处理的情况下的应用需要。另一方面,为了测试算法性能、实现算法应用,本文提出了一套面向搜索引擎的、基于数据流的频繁项挖掘系统——Fenster。该系统可以处理由查询产生的输入事务流或由点击产生的事务流,采用在线算法挖掘频繁项。根据应用环境的区别,本文分别介绍了Fenster的两种运行架构:集成环境应用于小型应用和算法性能测试;分布式的架构应用于大规模的应用。通过实验,本文论证了这种新的算法在时间性能和空间性能上对于LossyCounting算法的改进是卓有成效的,具有广泛的应用前景;验证了该基于数据流的频繁项挖掘系统的可用性,并提出了该系统未来改进的方向。除了搜索引擎之外,本系统提供的高度可配置性能力让系统在其他领域的应用成为可能。同时,数据流频繁项挖掘研究的不断深入也让本系统在诸如股票分析、人群行为分析、商业行为分析、天气和环境检测等诸多方面具有广阔的应用前景。