【摘 要】
:
近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提
论文部分内容阅读
近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提出了一种基于Hash函数抽样的数据流聚类算法。算法采用等时间跨度滑动窗口的思想,对每个窗口内的数据首先用Hash函数进行抽样,抽样后的数据先保存在存储池中,然后分析样本数据的变化情况,再利用PAM算法得到最终的聚类结果。从对真实数据集的实验结果上来看,算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream
其他文献
垃圾短信问题越来越严重,为了识别中文垃圾短信,将人工免疫系统的方法引入中文垃圾短信识别领域。针对中文短信息系统本身的一些特点,提出了适应这些特点的人工免疫算法,并在实验中得到验证。实验结果表明,基于人工免疫的中文垃圾短信识别方法具有较低的错误否定率和错误肯定率。
为了有效提高软件的测试效率,通过对自动化测试技术之间优缺点比较,结合Web的特点和业务流程,提出了一种基于Robot测试框架的关键字驱动技术。在此技术的基础上,设计并实现了
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综
在多终端的JavaME蓝牙串口通讯中,经常需要访问并控制异地文件目录结构。为了保证在串口连接的条件下能够便捷和实时的获取目录结构信息,准确定位文件,还必须对目录结构动态的进