论文部分内容阅读
随着信息技术的飞速发展,大数据时代悄然来临,要想利用如此庞大的数据,便需要一种快捷有效的方法给出科学的分析决策或者推荐。然而,随着数据采集和处理技术的不断发展,不确定性知识表示和处理逐渐成为网络计算中亟待解决的问题。而作为双向认知计算的云模型通过赋予样本随机确定度来刻画概念的随机性、模糊性,使得云模型在机器学习、数据挖掘和人工智能等领域得到广泛应用。上世纪90年代中期,李德毅院士提出了一种定量和定性相结合的数学模型——云模型,之后的二十年云模型发展不断壮大,扩展为云理论。云模型研究者们在云理论基础上,又提出了云模型相似度的概念,用来表示同类概念不同语言值的多个云之间的关联程度。这正迎合了数据分类以及协同过滤推荐系统等领域的要求,为其优化和应用开辟了一条崭新的道路。本文利用云模型相似性的这一特性,针对目前结果不稳定和时间复杂度较高等不足,提出了基于云模型期望曲线重叠度的相似云(OverlapBased Expectation Curve of Cloud Model,OECM)度量算法和基于云模型最大边界曲线重叠度的相似云(Overlap Based Maximum Boundary ofCloud Model,OMCM)度量算法。本文主要研究工作包含以下几个方面:(1)将目前云模型相似性度量方法分为三类,分析了基于云滴方法、基于所围公共面积法和基于向量法三种度量方法的优势和不足;(2)根据云模型3En规则定义了两个云模型的小于关系、包含关系以及云模型的重叠度;(3)针对时间复杂度过高和结果不稳定的不足,充分利用云模型期望曲线和边界曲线,得到了OECM和OMCM算法;(4)根据目前云模型的性质、OECM算法和OMCM算法的特征,对云模型相似性进行了典型特性的探索;(5)对OECM和OMCM算法可行性进行探究和分析,并对云模型的-截集的概念加入了本人的理解,并对云模型相似性度量做了进一步的研究和延伸;(6)将OECM和OMCM算法应用到时间序列分类这个较大数据集中,分别从结果正确率、稳定度和时间复杂度三方面验证算法的特性;(7)将算法应用到MovieLens站点提供的数据集中进行协同过滤推荐,利用平均绝对误差分析算法的性能和应用前景,并针对最近邻居数k=40取最优值的结果,对用户与项目的关系进行深层次的挖掘,(8)将OECM和OMCM算法应用到Jester Joke较大的数据集中,进行协同过滤推荐并将预测评分结果与实际评分进行归一化平均绝对误差计算,验证了算法在协同过滤推荐系统领域的可行性和有效性。