基于问答社区的问题相关性及答案排序研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:comeandsit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在问答社区中用户不仅是信息的消费者同时也是信息的创造者。海量用户在问答社区中创造了海量的数据,用户生成的内容通常会出现问题和答案之间的差距,以及一些垃圾信息的生成,都会对用户得到所需信息造成障碍。所以,在问答社区中对问题和答案进行过滤和排序是非常具有挑战性的,本文目的是帮助用户提高查询信息的效率,以及问答社区中知识信息的分享行为。本文针对问答社区中的问题和答案排序进行了深入研究。社区问答推荐问题和候选答案的结构方式都不一样,所以本文在研究推荐问题,答案排序和最佳答案时并没有使用同样的方法。问题推荐旨在给用户提供所需问题的相关问题,以便用户更快的找到问题的答案。本文讨论了一般的问题相关性研究办法,提出了4个有效的文本特征,并在问答社区中进行了实验,检测了问答社区中推荐问题的相关性,该方法有效的验证了推荐问题的相关程度,提出了推荐问题的排序思路,同时验证了在问答社区中收集问题语料的可行性。在答案排序的研究中,本文考虑问题和答案之间的潜在联系,在中文问答社区中使用了类比推理的方法,用来类比新的问答关系和已有的一些准确问答关系间的联系,在候选答案中把最相似的答案认定最优答案。在类比推理方法中,本文收集了充分的问答对来保证里面只包含高质量的答案,以此来建立了一个辅助集,再加上回归模型,用来评估一个新的问答对和辅助集有同一类型的关系。本文的实验结果表明,使用二元分类方法判别问题是否相关是有效的,判别后的相关问题可作为推荐问题。在对问答对评价结果表明,本文的类比推理方法在各方面都超出平均表现,在高噪音环境的问答社区中,类比已有的问答关系是非常有益的。
其他文献
该文提出了三种基于数据分割的关联规则采掘算法:算法PA、算法RP和算法IMA,这三种算法的思想不同,解决问题的方式方法不同,它们分别适用于不同的采掘任务.由于引入数据分割的
该文主要对基于FIPA规范的多Agent系统软件体系结构进行了研究,并针对其中存在缺陷,提出了改进的体系结构.
近年来,随着计算机技术的飞速发展,互联网已经从各方面影响着人们的工作和生活。为了更好的使用互联网资源,搜索引擎应运而生。但是传统的通用搜索引擎存在着网络覆盖率低、
该文依据计算机网络技术理论,以TCP/IP协议为基础,包过滤技术为核心,讨论了在Windows系列平台下,采用网络监听技术,在链路层捕获数据包的可能性和协议无关性的实现方法.以Win
该论文综合分析了VPN中的各种关键技术,并着重介绍了VPN技术中占有重要地位的两个协议:L2TP和IPSec.论文中还提出了一些VPN技术中尚待解决的问题尤其是如何把VPN技术与IP QoS
随着电信网络的数据和语音业务量不断增长,电信运营商需要对海量的网元数据进行收集处理、计算分析。数据规模庞大,单台服务器处理能力已经远远满足不了人们对计算速度的要求
该文通过对CELP类语音编码算法及基关键技术的深入研究,提出了基于聚类分析方法的矢量量化码本快速搜索算法,并将该算法用于解决G.723.1编码器算法的优化问题.理论分析表明,
图形显示是电子海图的关键技术之一.它的性能对电子海图应用系统是十分重要的.该文研究并实现了在WindowsNT平台上电子海图显示技术的软件模块.WindowsNT是抢先式的多任务操
该文以"九五"国家重点科技攻关项目"用于局域网的ATM交换机的研究与开发"为研究背景,开展了对ATM接入交换机的研究,包括ATM接入交换机体系结构,ATM接入交换机硬件系统的设计,
该文论述了运用科学计算可视化方法对分解炉炉内过程进行研究的过程,首先建立了分解炉内气固两相流动,煤粉燃烧,CaCO分解过程的数学模型,其数学模型亦是建立各复杂条件下的基