论文部分内容阅读
概念格理论,作为一种高效的数据分析工具,已经广泛地应用于数据挖掘、软件工程、信息检索等领域。其中概念和概念格是此理论的基础,在一般情况下,概念格中的概念数是输入背景大小的指数倍,因此寻求一种高效率的建格算法就成为决定概念格理论能否成功应用于实际的关键。论文通过对各种增量式算法理论的深入研究,提出一种基于概念间偏序关系来构建概念格的算法设计思想。概念格的构建可分为概念更新、概念新增和格结构更新三个过程。针对概念更新,设计了一种通过判断亚概念的更新情况,同时完成此概念及其超概念更新的概念更新方式;针对概念新增,通过证明分组定理,提出一种基于对象分组的方法来寻找新概念;针对格结构更新,构建出一种与算法匹配的、自底向上的结构更新算法。进一步,在区分概念对象、非概念对象的基础上,分离出外延中仅含单个对象的概念,使得概念更新和概念新增能在此类概念上同步进行。基于上述设计思想,最终实现了基于偏序关系的增量式建格算法Parto。论文通过理论分析和不同背景下的实验对比讨论算法的性能。理论分析说明,在任何形式背景下Parto算法要优于同类的Godin算法。实验结果表明,在小或稀疏的形式背景下,Parto算法比Godin算法快15%。在大且密集的形式背景下,当Godin算法性能变坏的特征点未到达时,Parto算法和Godin算法有类似的性能曲线,都比批量式的Bodat算法好。当此特征点到达后,Godin算法呈指数级增长且不如Bodat算法,而Parto算法依然好于Bodat算法。