Web2.0环境下用户创作内容信任分析

论文部分内容阅读

当今的社会正处于互联网的时代,技术飞速发展。随着互联网进入Web2.0时代,普通的用户获得了网络中的话语权。Web2.0网站中信息的时效性与多样性,更使得很多人将互联网,特别是Web2.0网站,作为自己获取信息的首要途径。然而,话语权的放开也带来了一系列的问题。由于Web2.0网站中,信息的发布没有人把关或监管,造成了Web2.0网站中的信息具有不确定性。这种不确定性表现在两个方面,第一个方面是用户身份的不确定性,用户的虚拟身份与用户的现实身份难以对应。第二个方面是信息的不确定性,微博等Web2.0网站中存在着一些谣言和不实信息,信息的可信度难以判断。而不实信息的传播,又会带来不良的影响。面对Web2.0网站中信息的不确定性,本文针对用户创作内容进行信任分析,主要成果包括：1.数据的采集。本研究针对在线论坛和微博这两种Web2.0时代的代表网站,.进行了相关的数据采集。根据研究的需要,从采集到的页面中,抽取了需要的信息。根据后续分析的需要,采取了合适的方式进行了数据的组织与存储。2.针对一个用户在Web2.0网站中可能使用多个虚拟账户的情况,提出了一种基于多维相似度的用户多虚拟身份识别算法。利用在线论坛数据集,对提出算法的效果进行了实验。实验结果表明,本研究提出的算法能够有效的识别出用户的多个虚拟身份。3.针对Web2.0网站中存在的虚假、不实的信息,提出了针对用户创作内容的信任分析方法。首先,利用采集到的微博数据,针对正常微博与不实微博,进行特征对比分析,得到了差异较大的几种特征。随后,利用多种分类算法,对微博是否可信进行了识别。经过实验的验证,得到了较好的结果。随后,在基于分类算法的用户创作内容信任分析方法的基础上,利用基于情感分析的方法对实验的效果进行了进一步改进,实验的准确率得到了进一步提升。

其他学术论文