论文部分内容阅读
由于实际应用中的数据往往是来源多样化、体量巨大化、格式多元化的数据,仅仅支持布尔型数据的经典形式概念分析理论已不能适用。因此,如何处理格式多元化的数据,使得形式概念分析理论能够适用,成为了很多研究者关注的问题。在格式多元化的数据中,又以值在规定区间内的区间连续型数据最多。目前针对连续型数据构成的区间型形式背景的处理方法多为分粒(Granularity Division)法,其中分粒指的是将区间型形式背景属性项划分为若干子区间属性的过程。分粒法核心思想为:通过先验知识对区间型形式背景各个属性项的取值区间进行直接分粒,或者人为规定参数采用一定的方法分粒,然后对每个分粒进行标识并置换,最后通过多值属性单值化的方法将区间型形式背景变为经典形式背景进行处理。将处理后的形式背景生成的概念格展示出来同样是一个重要的研究方向。概念格作为形式概念分析理论中的核心数据结构,能够描述概念间的泛化、特化关系。而概念格的Hasse图可视化则可以把这种知识单元的内在关系进行直观的表达。所以概念格Hasse图布局能否清晰、美观、明确的反应概念格结构特征是本文研究的另一个问题。目前传统概念格布局算法主要分为二维和三维两种布局方式。本文通过研究发现,上述研究仍存在以下问题:(1)传统思想虽然解决了概念格理论对区间连续型数据的适用问题,但分粒过程经过人为干预,不能排除主观因素、缺乏客观性、自动化程度不高。因此,研究具有客观性的、符合人类认知的、自动化程度高的分粒方法就尤为重要。(2)传统二维布局算法在面对复杂概念格时会出现横向扩张过大,线段交叉过多,格节点布局不灵活,人机交互体验差等缺陷;虽然一些传统三维布局方法解决了如横向扩张大、人机交互体验差的问题,但仍存在Hasse图图形中线段覆盖节点,格结构展示不清晰、不美观的问题。为解决以上问题,本文一是对概念格区间型形式背景的分粒方法进行了研究,二是针对传统概念格三维布局方法进行了改进,形成以下两个主要成果。(1)针对概念格在处理海量区间连续型数据时,存在分粒自动化程度较低,且不能排除主观因素,分粒缺乏客观性的问题,提出了一种基于云模型的概念格分粒方法。该方法中心思想为通过将区间型形式背景分粒中的各个分粒属性看作一个个正态云,与统计学中的高斯混合模型进行结合,将原始的形式背景属性项数据频率分布分割为若干个正态分布,通过正态分布形成正态云中的含混度参数来判断得出的正态云(分粒)是否合理,并进行优化。在此方法中概念格与云模型的结合为分粒提供了统计学依据,通过含混度参数来对分粒进行优化,避免了人工干预,提高了自动化程度。通过将此方法应用于1980-2017电子软件售卖信息数据,并与传统方法中模糊K-means方法在自动化程度、分粒特征、时间效率及合理性度量参数DBI方面进行对比,验证了本文分粒方法的可行性和优越性。(2)针对传统三维可视化布局算法在概念格表示上存在复杂概念格表示不清,图形不够美观的问题,提出了一种基于虚拟节点的概念格三维可视化布局算法,提升了概念格可视化图形的美观度。该算法通过添加虚拟节点对二维KK(Kamanda Kawai)布局算法改进,并与传统分层算法分层函数相结合,有效解决了层内节点横向扩张过大及节点连线交叉过多表示不清晰的问题,使概念格结构变得明确、易读。与传统三维布局算法中圆形分配算法的对比分析验证了该算法在概念格可视化布局方面对已有三维布局算法的优越性。