论文部分内容阅读
科学实验数据、统计数据、元数据、……,我们已被“大数据”“包围”;自然信息、社会信息、新生的信息、老化的信息、……,我们处在信息的“海洋”之中。然而,我们又苦于难觅想要的知识。国家对信息资源建设的推动、互联网应用的普及和检索技术的提高都为知识获取和知识服务提供了莫大的便利:检索系统为我们提供了搜寻的手段,互联网为检索提供了更大的平台,数据融合、信息资源整合为检索提供了更多的内容,但仍然是疲于应对信息的快速增长。随着信息资源建设的不断完善,资源聚合将成为数据融合、资源整合等研究的延伸,不断实现知识发现的功能。整合更全面的信息资源,在融合的基础上进行筛选,然后进行面向知识的挖掘、发现和推荐服务,这或许成为未来信息资源聚合的一种范式。本文以数字文献资源为对象,本着在信息资源聚合中减少对背景知识的依赖性,便于推广应用的宗旨,提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型(Co-occurrence Latent Semantic Vector Space Model,简记为CLSVSM)。学术界针对文献或文本聚类问题,主要有两类解决思路,一种是文献表示模型的改进,一种是算法的改进。传统的算法对高维稀疏的向量聚类存在不足,一些新的算法也不尽完美,更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关,特别是在信息有限的情况下,聚类算法的优势也不能得到完美发挥,相比之下,信息的挖掘、提取和文献向量表示就尤为重要。在本文仅限于元数据甚至只有关键词的前提下,文献的表示向量相比一般文本表示就表现得非常稀疏,面对这种情形聚类算法即使是“巧妇”也“难为无米之炊”,因此,本文的重点突破是文献主题语义信息的提取、度量和文献高维向量的新表示方法。CLSVSM模型就是在这种情形下提出的,而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM模型和GVSM模型好。本文是面向实际应用的理论和方法研究,全文共7章,除去“引言”和“总结与展望”前后两章,其余各章摘要如下:第1章:理清概念,梳理研究基础理论并提出研究出发点。在概念阐述方面,首先理清了本文研究的对象——数字文献资源的范畴;其次重点探讨了资源聚合的内涵和外延,在此基础上提出了作者对聚合概念的三段式解释,即从数据融合到资源整合再到知识发现,并将本文研究的重点定位于聚类知识发现;然后总结了文献资源聚合的形式和内容。在研究基础理论的梳理中,分析了有助于文献特征信息提取的文本挖掘理论、有助于获取语言使用规律中语义信息的共现分析理论、有助于潜在语义信息分析和计算的潜在语义分析理论、有助于解释文献聚类结果的特征聚合理论、用于特征提取评价和聚类评价的信息熵理论,以及对特征词重要性取舍有指导意义的长尾理论。在以上论述的基础上,以实际应用为导向,提出了基于元数据(主要是关键词)建立文献特征向量并实现聚类的基本思路。第2章:研究了文献高维特征的向量表示与文献相似性的度量方法和模型,寻求模型的创新思路。首先文献的属性特征是多元的和高维的,本文主要实现基于主题的文献聚类,因此,选择反映文献主题属性的特征词代表文献,并选择最为实用的代数表示方法。其次从向量空间模型(VSM)到广义向量空间模型(GVSM),再到语义向量空间模型(SVSM)进行了比较研究,并介绍了有代表性的相关模型。最终形成结合潜在语义和VSM模型探索新表示方法的思路。第3章:提出共现潜在语义向量空间模型(CLSVSM)以及在此基础上的文献聚合步骤。进一步明确了共现潜在语义的概念,以及共现潜在语义的提取和使用。然后以补充向量中的语义信息为主要突破口,通过共现分析方法提取潜在语义信息,然后与文献的基本特征信息进行叠加,形成新的表示模型。新模型既包括了文献本身的主题特征,又包括了文献集特征词共现所蕴含的主题关系,因此,充分体现了文献的主题信息。新模型被称为潜在语义向量空间模型,简记为CLSVSM。在此基础上选择余弦相似性度量、适当的算法和准则函数形成文献聚合步骤。最后与部分模型,特别是面向中文文献聚类的模型,做了对比。第4章:通过实验检验基于CLSVSM模型的聚类效果,主要与VSM和GVSM模型对比。聚类的好坏需要与原有分类作比较才能评价。本文选择了两个数据源进行实验,一个是人大复印资料G9《图书馆学和情报学》的文献集,以其栏目为分类,但实验效果不佳,究其原因主要是将栏目作为类别本身存在类别划分不清晰的问题,所以不能有效评价聚类的好坏。第三个数据集是从CNKI中“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科抽样组成的文献集,实验表明基于CLSVSM模型的聚类效果很好。通过熵值、纯度和BF值来看,基于CLSVSM超过基于VSM模型的聚类结果至少24%以上,超过GVSM模型至少13%以上,因此认为CLSVSM模型对文献主题聚类是有效的。以上实验都是在gCLUTO平台上开展的。第5章:将CLSVSM模型用于实践,检验深度聚合对主题的凸显能力。第一个实证选择概率论与数理统计学科的抽样文献,特点是理科应用性学科,主题相对分散;第二个实证选择检索文献集,特点是主题相对集中,主要是检验对检索结果聚类的情况。实证仍然是在gCLUTO平台上进行,采用三种方法判断能够凸显各簇主题的聚类数目,然后比较不同聚类数目的效果。两个实证结果都表明基于CLSVSM模型的聚类能够很好地划分文献集的主要主题群,并且聚类数目越多对小规模研究主题的凸显能力越强,而聚类数目越多意味着对主题关系的划分越细,对主题挖掘得越深,因此也是对文献主题的深度聚合。综上所述,面对资源聚合的庞大课题,本文着眼于文献聚合中的聚类发现,提出了CLSVSM模型,并在实验中表现很好。CLSVSM模型不仅为有限信息下文献聚类提供了可行的办法,还为文献聚合中的相似性度量、文献检索、文献分‘类等研究和实践提供了参考。