论文部分内容阅读
网络信息的可信度关乎决策的有效性程度。社交媒体、移动互联及大数据环境下的网络信息具有用户主动参与、信息多源异构及海量动态等新的特征。在新型的网络环境下,信息交互过程越来越纷繁复杂,信息的真实性或可信度日渐受到人们的关注,特别是针对网络信息可信度评估及测度的研究越来越多。本文尝试以知识图谱为工具,通过构建知识图谱来测度网络信息的可信度,便于直观的了解和感受网络信息可信度测度的具体过程。知识图谱是一种图谱组织形式,通过语义关联将各种实体关联起来,将基于语义网的知识库可视化展示出来,重在抽取关系,便于展示高关联性,高结构化的结果。语义网实际上是让计算机理解人的意思,因而图形结构就为推理提供了很好的依托。知识图谱把结构化以及非结构化的数据通过数据抽取融合在一起,揭示了数据治理、语义连接的思想,从而有利于大规模数据的利用和迁移。知识图谱作为如今大数据时代下兴起的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到了众多领域的关注,应用前景非常广阔。但是当前知识图谱的发展还处于初级阶段,面临着许多挑战和难题,譬如知识库的自动扩展,异构知识的处理,推理规则的学习等。虽然相关研究针对不同问题提出了处理办法和改进模型,但仍然要对其进行更深入的研究。本文基于专家性用户经验以及社交媒体平台中大众性用户体验从文本聚类、社会网络分析以及文本分类三个方面对知识图谱的构建进行了研究。针对知识图谱构建过程中的难题以及相关研究的不足,本文做了一些探讨研究,主要包括以下几个方面:(1)本文尝试基于领域范围内专家性用户经验构建领域知识图谱,作为领域内参照标准。数据来源于多个专业网站的不同专家经验知识,既能体现不同专家经验的交叉验证,又能使得领域知识的维度更加全面,防止单一网站或者专家经验的不同倾向导致的片面性。基于层次聚类,构建了同质网络聚类的知识图谱,揭示了同类型节点之间的相似程度和关联关系;基于社会网络分析,构建了异质网络聚类的知识图谱,揭示了两种不同类型节点之间的关联关系,弥补了传统多维尺度分析方法的不足。(2)以专家性用户经验为参照标准,基于社交媒体平台中大众性用户体验构建知识图谱。由于大众性用户对领域知识缺乏系统全面的认知,导致交互数据非常稀、碎片化,因此将专家经验作为参照标准是很有必要的。对社交媒体平台中的用户交互数据进行自然语言处理,以专家词典作为中文分词词典,使得处理结果更加规范化。同样基于层次聚类以及社会网络分析,构建同质网络聚类以及异质网络聚类的知识图谱,揭示节点之间的关联关系,便于两者之间的分析比较。(3)将社交媒体平台中大众性用户体验和专家性用户经验进行比较分析,测度大众性用户体验的可信度。基于KL散度计算词语之间的相似度,相似度越高,可信程度越大。然后对KL值从小到大进行排列,设置阈值并且通过交叉验证的方法对不同阈值设定进行评价,选取指标值最高的阈值设定作为保证分类结果最稳健分类阈值。