论文部分内容阅读
伴随着我国电信运营商为了适应飞速变化的外界环境进行自我的不断改革和发展的同时,电信运营商之间的竞争也演变得越来越激烈,这也给电信运营商带来了更大更多的发展机遇。电信运营商发展至今积累的海量的客户消费数据,隐藏着能够指导电信运营商更准确地进行企业决策的知识。而发现大量的数据中发现隐藏的有价值的信息,对现在的电信运营商更好地在竞争中服务客户具有重要的意义。数据挖掘正是从帮助人们从大量数据的传统分析中解放出来,提供了另一种更智能、更高效也更有成效的从数据中获取知识的技术方法。
本文主要做了两部分工作,包括模糊关联和周期性数据聚类两方面的研究。第一部分探讨数量型属性在区间划分上存在的划分过硬问题,引入模糊关联规则的问题。本文对现有的模糊关联规则算法选取了其中三个算法进行了分别的总结和比较分析,包括基于AprioriTid的模糊关联规则算法FAMA、基于FP-Tree的模糊关联规则算法FFP-Tree和基于线性链表的关联规则挖掘算法FMA-LL,并用实验比较了几个算法之间的优劣性,验证了FMA-LL在模糊属性处理问题上的全面性和在算法效率上的高效性。在已有的FMA-LL算法的基础上,从线性和非线性两方面解决隶属度函数的确定问题。CURE算法利用聚类得到的中心构成模糊集,GA算法将函数参数编码经过多次遗传操作得到最优模糊集,再确定线性函数。FCM和GA_FCM算法是采用分治对每个属性模糊聚类产生对应的隶属矩阵,根据聚类中心和隶属矩阵来逼近正态模糊函数,得到正态隶属度函数。采用adult数据集做实验进行分析,实验证明CURE、GA和GA_FCM在隶属度和算法效率上各有优势。第二部分分析现有的对时间数据序列进行聚类分析的方法。现有的聚类算法通常从相似性度量的方面进行改进,但往往忽略时间序列数据周期性和连续性的特点对聚类算法的影响。本文对此问题进行了分析,尝试采用延拓的方法来解决该问题,从而改善聚类的效果。本文通过初步的实验结果表明了该方法的可行性和有效性。