社会化标注环境下的标签聚类方法研究

来源 :合肥工业大学 | 被引量 : 7次 | 上传用户:surplushui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为互联网上用户搜索、组织、管理和共享网络资源的一种机制,社会化标注允许广大互联网用户在一个自由开放的环境中对自己感兴趣的网络资源依据自身的理解和喜好选择合适的标签进行标注,由此在用户、资源和标签之间产生了大量的标注信息。由于社会化标注具有自由化和公开性的特点,不同时间或背景下所产生的标注信息导致社会化标签存在语义模糊、歧义、稀疏、冗余等问题,造成标签组织的混乱和信息描述的不一致性,制约了社会化标注系统的应用。通过标签聚类有助于揭示标签的内在一致性和凝聚性,从而发现标签聚集体所隐含的共同信息、概念与知识,有助于标签的重新组织与应用。为此,本文以标注信息为基础数据资源,并扩展利用社会化标注系统中的资源内容等相关信息,研究标签聚类的相关方法,为基于标签聚类的其它相关研究与应用提供良好的基础。本文的主要研究内容如下:(1)提出基于共同共现群体相似度的标签谱聚类方法。其中,针对当前的标签相似度测量方法容易引起标签的语义信息丢失等问题,提出标签的共同共现群体相似度,从全局的角度完整地利用三元标注信息度量标签的语义相似性;为了缓解标注数据空间结构复杂所引起的标签数据分布不规则问题,在标签共同共现群体相似度的基础上提出谱聚类方法,利用谱聚类算法可以处理任意分布的数据且能收敛到全局最优解的优势实现标签的聚类。实验结果表明,基于共同共现群体相似度的标签谱聚类方法比当前主要的标签聚类方法具有更好的聚类效果。(2)提出基于LDA (Latent Dirichlet Allocation)模型的标签综合聚类方法。由于三元标注数据中用户的标注信息和资源的被标注信息之间所蕴含的标签语义具有关联性、重叠性与差异性等特点,为了完整揭示标签中隐藏的语义结构,从潜在主题的角度研究标签的聚类方法,提出标签的综合LDA主题模型及其聚类方法。将三元标注关系分割成“用户-标签”和“资源-标签”这两个二元关系,分别建立基于用户的标签主题模型和基于资源的标签主题模型,在此基础上,综合标签在这两类主题上的主题分配结果建立标签主题的二次学习模型,通过迭代学习出标签的混合主题并实现标签的聚类。该方法实现了标签整体语义的分割、重构与聚类识别。实验结果表明,基于LDA的标签综合聚类方法比其它标签聚类方法能够更好地聚类标签。(3)提出融合内容与链接分析的标签聚类方法。基于融合社会化标注环境中存在的多源相关信息有利于提升标签的主题识别能力与聚类质量这一假设,提出融合用户社会关系的标签LDA模型及其标签聚类方法,以及融合引用关系的资源内容与标签的联合LDA模型及其标签聚类方法,并在这两种LDA模型的基础上,提出融合内容与关系的标签综合LDA模型及其标签聚类方法。其中:融合用户社会关系的标签LDA模型及其标签聚类方法通过建模用户的社会关系,构建基于用户加权的标签LDA模型以实现标签的聚类;融合引用关系的资源内容与标签的联合LDA模型及其标签聚类方法通过建模资源的引用关系,构建基于资源加权的词与标签的联合LDA模型以实现标签的聚类;融合内容与关系的标签综合LDA模型及其标签聚类方法在获取基于用户加权的标签主题和基于资源加权的标签主题的基础上,构建标签主题的二次学习模型学习出标签的混合主题并实现标签的聚类。实验结果表明,这三种标签聚类方法在各自的领域范围内比其它的标签聚类方法能够获取更好的聚类结果。
其他文献
当今,全球社会面临人口、环境、能源、粮食、资源等方面的严峻挑战。贫富分化日益加剧,环境恶化,能源紧张,粮食危机,水资源缺乏等问题,使整个人类社会的稳定受到极大威胁。
带有多目视觉系统的移动机器人能在同一时间获取更多关于周围环境的信息,从而可以更好地判断周围环境的情况以及自身的处境。提出一种基于双目立体视觉、全景视觉、低位避障视
本文针对《查新报告质量评定标准》一文提出了几点不同看法。认为查新报告形成过程 可分为四个阶段:查新项目基本信息的获取、相关信息采集(检索)、相关信息加工和新颖性判
分析化肥施用对农产品质量安全的具体影响,包括硝酸盐污染、重金属污染及氟污染和有机物污染等方面,并且有针对性地提出了在现有的施肥大环境下,可以通过推广技术、降低肥料中重
针对多数行业标准编写人对标准的特性认识不足 ,缺乏编写经验等问题 ,提出了力求标准结构严谨、层次分明 ,主题突出 ;标准内容完整具体、工作方法简单易行 ,操作性强 ,质量要
目的对护理风险管理在呼吸内科患者静脉留置针输液中的应用方法与应用效果进行研究与分析。方法选取2015年1月至2016年1月于本院呼吸内科接受治疗的静脉留置针输液患者120例,
高级定制成衣作为服装行业的新兴力量,与我国独有的传统缂丝手工艺有着异曲同工之妙,两者其本身就是技术美与工艺美的象征。本文在了解缂丝技艺和产品价值上,分析目前缂丝工
针对机器人教学和科研的需要,开发出全自主移动机器人综合实验平台,它综合了多种先进技术和实验功能,可完成机器人机械实验、移动控制实验等多种实验。建立平台数学模型,进行了运