数字文献资源高维聚合模型研究

被引量 : 20次 | 上传用户:philippetr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学实验数据、统计数据、元数据、……,我们已被“大数据”“包围”;自然信息、社会信息、新生的信息、老化的信息、……,我们处在信息的“海洋”之中。然而,我们又苦于难觅想要的知识。国家对信息资源建设的推动、互联网应用的普及和检索技术的提高都为知识获取和知识服务提供了莫大的便利:检索系统为我们提供了搜寻的手段,互联网为检索提供了更大的平台,数据融合、信息资源整合为检索提供了更多的内容,但仍然是疲于应对信息的快速增长。随着信息资源建设的不断完善,资源聚合将成为数据融合、资源整合等研究的延伸,不断实现知识发现的功能。整合更全面的信息资源,在融合的基础上进行筛选,然后进行面向知识的挖掘、发现和推荐服务,这或许成为未来信息资源聚合的一种范式。本文以数字文献资源为对象,本着在信息资源聚合中减少对背景知识的依赖性,便于推广应用的宗旨,提出了基于文献集本身或者相关领域的共现信息而实现文献聚合的共现潜在语义向量空间模型(Co-occurrence Latent Semantic Vector Space Model,简记为CLSVSM)。学术界针对文献或文本聚类问题,主要有两类解决思路,一种是文献表示模型的改进,一种是算法的改进。传统的算法对高维稀疏的向量聚类存在不足,一些新的算法也不尽完美,更主要的是聚类算法的效果与数据本身的特征以及信息提取和表示密切相关,特别是在信息有限的情况下,聚类算法的优势也不能得到完美发挥,相比之下,信息的挖掘、提取和文献向量表示就尤为重要。在本文仅限于元数据甚至只有关键词的前提下,文献的表示向量相比一般文本表示就表现得非常稀疏,面对这种情形聚类算法即使是“巧妇”也“难为无米之炊”,因此,本文的重点突破是文献主题语义信息的提取、度量和文献高维向量的新表示方法。CLSVSM模型就是在这种情形下提出的,而且通过实验证实基于CLSVSM的文献聚类表现比基于VSM模型和GVSM模型好。本文是面向实际应用的理论和方法研究,全文共7章,除去“引言”和“总结与展望”前后两章,其余各章摘要如下:第1章:理清概念,梳理研究基础理论并提出研究出发点。在概念阐述方面,首先理清了本文研究的对象——数字文献资源的范畴;其次重点探讨了资源聚合的内涵和外延,在此基础上提出了作者对聚合概念的三段式解释,即从数据融合到资源整合再到知识发现,并将本文研究的重点定位于聚类知识发现;然后总结了文献资源聚合的形式和内容。在研究基础理论的梳理中,分析了有助于文献特征信息提取的文本挖掘理论、有助于获取语言使用规律中语义信息的共现分析理论、有助于潜在语义信息分析和计算的潜在语义分析理论、有助于解释文献聚类结果的特征聚合理论、用于特征提取评价和聚类评价的信息熵理论,以及对特征词重要性取舍有指导意义的长尾理论。在以上论述的基础上,以实际应用为导向,提出了基于元数据(主要是关键词)建立文献特征向量并实现聚类的基本思路。第2章:研究了文献高维特征的向量表示与文献相似性的度量方法和模型,寻求模型的创新思路。首先文献的属性特征是多元的和高维的,本文主要实现基于主题的文献聚类,因此,选择反映文献主题属性的特征词代表文献,并选择最为实用的代数表示方法。其次从向量空间模型(VSM)到广义向量空间模型(GVSM),再到语义向量空间模型(SVSM)进行了比较研究,并介绍了有代表性的相关模型。最终形成结合潜在语义和VSM模型探索新表示方法的思路。第3章:提出共现潜在语义向量空间模型(CLSVSM)以及在此基础上的文献聚合步骤。进一步明确了共现潜在语义的概念,以及共现潜在语义的提取和使用。然后以补充向量中的语义信息为主要突破口,通过共现分析方法提取潜在语义信息,然后与文献的基本特征信息进行叠加,形成新的表示模型。新模型既包括了文献本身的主题特征,又包括了文献集特征词共现所蕴含的主题关系,因此,充分体现了文献的主题信息。新模型被称为潜在语义向量空间模型,简记为CLSVSM。在此基础上选择余弦相似性度量、适当的算法和准则函数形成文献聚合步骤。最后与部分模型,特别是面向中文文献聚类的模型,做了对比。第4章:通过实验检验基于CLSVSM模型的聚类效果,主要与VSM和GVSM模型对比。聚类的好坏需要与原有分类作比较才能评价。本文选择了两个数据源进行实验,一个是人大复印资料G9《图书馆学和情报学》的文献集,以其栏目为分类,但实验效果不佳,究其原因主要是将栏目作为类别本身存在类别划分不清晰的问题,所以不能有效评价聚类的好坏。第三个数据集是从CNKI中“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科抽样组成的文献集,实验表明基于CLSVSM模型的聚类效果很好。通过熵值、纯度和BF值来看,基于CLSVSM超过基于VSM模型的聚类结果至少24%以上,超过GVSM模型至少13%以上,因此认为CLSVSM模型对文献主题聚类是有效的。以上实验都是在gCLUTO平台上开展的。第5章:将CLSVSM模型用于实践,检验深度聚合对主题的凸显能力。第一个实证选择概率论与数理统计学科的抽样文献,特点是理科应用性学科,主题相对分散;第二个实证选择检索文献集,特点是主题相对集中,主要是检验对检索结果聚类的情况。实证仍然是在gCLUTO平台上进行,采用三种方法判断能够凸显各簇主题的聚类数目,然后比较不同聚类数目的效果。两个实证结果都表明基于CLSVSM模型的聚类能够很好地划分文献集的主要主题群,并且聚类数目越多对小规模研究主题的凸显能力越强,而聚类数目越多意味着对主题关系的划分越细,对主题挖掘得越深,因此也是对文献主题的深度聚合。综上所述,面对资源聚合的庞大课题,本文着眼于文献聚合中的聚类发现,提出了CLSVSM模型,并在实验中表现很好。CLSVSM模型不仅为有限信息下文献聚类提供了可行的办法,还为文献聚合中的相似性度量、文献检索、文献分‘类等研究和实践提供了参考。
其他文献
本文从小学语文作文应用体验式教学模式的重要意义展开分析,并以此为依据,提出引导学生关注写作过程,提高理论素养;注重写作指导与评价,激发学生参与兴趣;引入生活中的素材,
<正>北京大学哲学系逻辑教研室简介北大哲学系逻辑教研室是国内建制最早的逻辑学教学和研究机构,为金岳霖、胡世华、王宪钧等著名逻辑学家亲手创建和培植,几十年来形成了完整
会议
目的探讨兴化市职业性噪声作业人员的健康情况,并分析相关的因素,从而制定噪声防治措施。方法对兴化市噪声作业人员健康监护情况和环境噪声强度监测结果进行分析和统计,根据
为揭示巢湖入河河口区水环境的时空变化特征,于2012年9月~2013年7月,在塘西河河口区设置9个采样点位定期采集水样,并对不同季节分别采集表层沉积物样。在对水体及沉积物的理化指
在政府投资审计中,对资金的使用规范性和效益性审计时,发现不少政府投资项目中途变更频繁,概、决算相差很大,结算价远超合同价等不规范情况较为普遍,最终造成概算大幅超支。
期刊
目的:研究并建立环孢素A(cyclosporine,CsA)静脉持续滴注方式在中国异基因造血干细胞移植术后患者中的群体药动学模型,为临床制定个体化给药方案提供依据。方法:回顾性统计了62
厦深铁路客运专线榕江特大桥系主跨为(110+220+220十110m)的钢桁梁与柔性拱组合体系桥,其跨度在同类型桥梁中位居世界首位。该桥的节点构造形式采用了整体式节点技术即:节点板
简单介绍了自我国项目工程建设全面推行“项目法人责任制、招标投标制、工程建设监理制”三项制度以来,工程建设管理规范化水平有所提高,特别是对项目工程建设投资的有效控制
目的调查研究环境噪声暴露对儿童学习记忆能力的影响,为降低环境噪声,减少噪声对儿童学习记忆的损害提供依据。方法 2018-04在绵竹市闹市区和安静区各选取一所小学,采用分层