三元共现潜在语义向量空间模型及降维研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:maomao0464
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的向量表示方法对文本主题聚合、聚类、信息检索及推荐系统等研究具有重要意义。在传统的文本表示模型中,向量空间模型(VSM)相对简单,且应用较为广泛。但该模型假设特征词相互独立,这在一定程度上会影响聚类效果。而共现潜在语义向量空间模型(CLSVSM)则是在VSM基础上,利用共现分析深入挖掘文本信息中特征词之间的潜在语义关系,并利用共现相对强度来估计这种关系,最终估计文献与特征词的相似性。通过实验可证明CLSVSM聚类精度要高于VSM。本文以共现潜在语义向量空间模型为基础,对模型进行拓展及降维研究。基于布尔权重的局限,利用词频统计量重新估计模型,构建词频共现潜在语义向量空间模型(FCLSVSM);为使CLSVSM能充分提取文献的潜在语义信息,进一步引入三元共现,通过研究三元共现表示,三元共现频次及三元共现相对强度的计算,最终建立三元共现潜在语义向量空间模型(T-CLSVSM)。但随着文本数量的增加,表达模型的维度会越来越高,计算量也会相应增加,最终导致模型应用的边际效应降低。因此考虑利用惩罚性矩阵分解(PMD)方法进行降维优化,具体方法包括:计算K-秩近似及提取核心特征词。实验中,选择扩展数据集验证FCLSVSM,利用基础数据集来验证T-CLSVSM及PMD算法,并利用公共数据集来检验模型的适用范围。最终得到如下结论:选择词频统计量来估计模型,可以显著提高聚类效果。在所选评价指标(纯度,熵值,F1值)下,T-CLSVSM的聚类精度要优于VSM与CLSVSM。PMD算法中,提取核心特征词与计算K-秩近似两种方法均可有效实现降维,与基于CLSVSM构建的语义核函数(CLSVSMK)相比,聚类精度更高,降维效果更好。本文对于共现潜在语义向量空间模型作出改进,包括基于词频信息的模型重建,三元共现潜在语义向量空间模型的构建以及利用PMD算法对模型进行降维。最终证明,改进后的模型可以提高聚类精度,降低计算复杂度,节约成本。模型的改进为文本表示提供了新的选择,同时也为文献聚合中的相似性度量、文献检索、分类等研究提供了参考。
其他文献
复杂网络理论可以用来描述大脑神经网络通信中的大量现象。研究发现,很多物种的脑网络结构具有典型的复杂网络特征,如网络的度分布服从幂律分布,网络拓扑结构具有小世界网络
环境变量,乍听起来很陌生,但你也可能接触过它,比如为减少系统盘出现磁盘碎片,要把Windows系统的临时文件乾坤大挪移到其他驱动器上,这就要修改“我的电脑/属性/高级/环境变量”下TEMP和TMP这两个系统变量的路径。其实除了这种简单的路径指引,Windows系统下的环境变量能做的事情还有很多,利用好它不但可以大大提高你的工作效率,并且还能实现某些特殊的功能哦。
对城市下穿铁路隧道而言,采用常规隧道检测技术进行诊断存在一定的局限,无法实现长距离分布式多时段的监测。为解决这一问题,本文采用长距离分布式布里渊光纤作隧道应变的传感器,提出了基于隧道纵向多断面曲率相关性的下穿铁路隧道结构状态诊断方法,并研究了该诊断方法在实际隧道中的应用。系统总结了国内外隧道监控量测及损伤诊断的应用研究成果与发展趋势,重点阐述了利用长距离分布式传感技术对隧道进行结构状态诊断的相关方
当下中国人口老龄化速度日益加快,养老问题已成为广泛关注的社会问题之一。目前,我国现有的家庭养老和机构养老已不能满足日益增多的老年人口需求,因此,社会化养老服务在不同地区逐渐兴盛起来。相比之下,城市社区养老服务相对比较成熟,而老年人口众多的农村社区养老服务还远远滞后,加之农村地区整体经济发展水平较低,“空心化”程度严重,因此,对农村社区养老做深入研究显得尤为必要。山西省平陆县圣人涧镇是一个城郊结合的