基于社会化标注的查询扩展研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:gengjie_1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化标注是用户产生的用于描述网络资源的关键词,区别于传统的自上而下的信息传播方式,社会化标注来源于广大的互联网用户,作为一种新兴的重要的信息资源,能够与广大的互联网用户分享,充分体现了Web2.0的精神。随着Web2.0的发展,许多网站允许用户创建并分享标签,与此同时,社会化标注也引起了研究者越来越多的关注,很多研究表明社会化标注能够用于改善信息检索。但是由于现实中的数据往往有缺陷,尤其是当社会化标注数据稀疏,或者遇到许多无效标注的时候,信息检索的改善效果并不理想。为了解决以上问题,本文探索了两种方法用于扩展和评估社会化标注,从而改善查询扩展的质量:一是Jaccard SimRank算法。当碰到稀疏的社会化标注数据的时候,传统的Cosine相似度和Jaccard系数几乎无效。为了解决数据稀疏而提出的基于图结构的SimRank算法,因为没有对社会化标注系统中的信息进行充分的利用,导致对查询词进行扩展的效果并不十分理想。本文提出了改进的Jaccard SimRank算法,能够更直观地描述标签词之间的相似度,并利用相似度算法为原始的查询词提供更精确的扩展词,从而提高检索效果。二是社会化标注质量评测策略。该算法基于用户标注的优劣可以被评估这一假设,因为一个用户的社会化标注能够被其他用户评价,通过投票的方式对标签进行评估,得到票数最多标签词可以认为为是最适合这个网络资源的标签。不仅标签被加以评估,提供合适标签词的用户也会获得一个相应的加权值,标签所关联的网络资源也会获得相应的加权值。利用加权值,可以在一定程度上排除机器产生的无效的自动标注,从而改善信息检索的质量。本文的实验数据集是从Bibsonomy网站上抽取的真实数据集,采用提出的两种改进的方法对数据集进行测试,通过对余弦相似度、Jaccard系数、SimRank算法和JSR算法的查询扩展结果进行对比,对实验结果进行评价,试验结果表明,本文提出的两个算法和传统相法相比,有效的提高了查询扩展的质量。
其他文献
人脸识别作为一种重要的生物特征识别技术,在身份认证中扮演着重要角色。在人脸识别过程中,图像预处理和特征提取占有重要的地位。光照处理和人脸几何矫正是图像预处理的主要内
尽管soft update、日志、事务、错误校验码、数据备份等机制的使用,让文件系统的可靠性得到了很大的提高,但是文件系统错误仍然时有发生。传统上,我们依赖于如fsck这样的检查工
由于IT行业的持续发展和人们对各种程序的性能的要求持续提高,处理器的研究也在持续发展,处理器的运算速度也随之持续上升。单核时期,Mooreslaw反应了处理器的发展规律,采用增加
无线传感网络是一种资源有限的无线自组织网络,通常部署在恶劣环境条件下,节点的通信性能较差,其传输功率有限,感知信息难以准确可靠的传回到汇聚节点。因此,如何使资源有限的传感
移动自组织网络中,节点随机移动会引起网络拓扑频繁地、不可预知地变化,进而导致节点之间的通信链路断开,路径失效,带来大量的路由重建,耗费了有限的网络资源。然而,研究表明,节点移
移动Ad Hoc网络是一种由多个不依靠基础设备而独立运行的无线终端组成的多跳分布式自治网络。近年来,随着通信技术的不断发展和硬件设备性能的不断完善,Ad Hoc网络逐渐引起广
大量的具有无线通信功能的各种传感器节点组成了新一代的无线传感器网络,这些节点采用多跳方式通信,并且可以构成自组织无线网络。在社会生活、环境监测、航空航天、军事国防等
目前世界上最新的文语转换系统(Text-to-Speech)虽然能够合成可以很容易理解的话语,但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在
互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapReduce在处理静态批量数据时优势明显,然
我们生活在一个信息时代,每天接触的信息不计其数。而图像作为信息载体之一,是人们获取信息的有效途径。科学研究表明,人类接受的外界信息有3/4是通过视觉器官来得到的。与声音