面向问答社区意见选择类问题的答案融合技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:annybill1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着问答社区(community-based Question Answering)的兴起,大量的问答资源在用户的交互中产生,为具有相似问题的用户解决问题提供了参照。问答资源中有一类问题称为意见选择类问题,即提问者询问某种观点是否正确或者某种行为是否可行。用户浏览这类问题可能出现的一个麻烦是答案繁多,不便于用户快速掌握所有回答者对于问题的意见的全貌。针对这一情况,本文做了以下几个方面的研究:第一,本文将意见选择类问题的答案看做有情感倾向性的文本,使用无监督学习和有监督学习两类方法对答案进行情感极性的判断。无监督方法学习通过使用基于WordNet的方法来计算词的情感极性,进而计算答案的情感极性。有监督方法通过朴素贝叶斯模型、SVM模型和最大熵模型对答案的极性进行分类,并使用集成分类方法进一步提升分类的准确率。最后实验验证了几种方法在判断答案极性方面的有效性。第二,本文使用了基于MMR模型的文摘方法对答案文本以句子为文本单位进行了摘要研究,使用WordNet对答案进行词集的扩充以解决短文本所造成的稀疏性问题。之后本文提出了融合情感极性信息和MMR模型的答案摘要方法,结合答案文本的情感倾向信息对MMR模型做出了三种不同的改进。最后使用ROUGE评价标准对模型的有效性进行评价。实验证明融合情感信息可以提升MMR模型进行答案摘要的效果,其中利用情感信息来更准确的刻画句子相似性对于改进摘要效果最为显著。第三,实现了一个基于CQA答案融合资源的意见查询系统。系统利用Yahoo! Answer问答社区信息,对与查询相关的问答资源进行了答案融合并以良好的方式进行了呈现。
其他文献
人体动作识别是计算机视觉领域研究的热点问题,在智能机器人、视频监控等智能化系统中有着广泛的应用。由于人体运动本身以及运动场景的复杂性,人体动作识别仍然面临着诸多困
microRNA (miRNA)是一类长度为22nt左右的内源性非编码RNA,通过碱基序列互补配对的方式对靶标mRNA的表达进行调控,从而控制基因的表达。基因的异常性表达成为多种疾病发生的重
随着医学影像技术的迅速发展,医学影像逐渐成为临床医疗的一种主要辅助手段,很大程度上提高了医生的确诊率。当前针对医学图像的分割主要将重点置于核磁共振图像(MRI)。脑部
信息产业的高度融合与快速发展,特别是嵌入式技术及网络通信技术的蓬勃发展,推动了远程监控技术的革新。这些发展与革新为现代社会的生产生活能够实施数字化的网络监控提供了有
最优化是目前科学计算中较为重要的研究分支,随着科技的发展,工程技术领域诸如通讯系统、自动控制、电力系统、机械工程、土木工程、生物工程、化学工程等产生了诸多复杂的最优
随着移动互联网的发展,虽然传统的TCP/IP网络已经能够在大范围内满足信息传输的需求,但是仍然有一部分地区的网络基础设施不是很完善。在这样的情况下使用传统的TCP/IP网络则不
随着科学技术的进步,互联网已经成为人们获取信息的主要手段。一方面,对于某一话题事件,相关的信息出现在互联网的各个分散的角落,通过人工的手段无法获知话题事件完整信息;另一方
粗糙集理论作为一种处理不确定、不精确或噪声数据的重要工具已经在多个领域,如数据挖掘、模式识别、人工智能、认知科学等得到广泛应用。近年来,基于粗糙集的属性约简成为一个
随着互联网的普及,网上的信息呈爆炸式增长。除了数量的膨胀,信息的类型也呈现了越发多样化的趋势。在多种多样的数据类型中,有一类数据可以被称作"个人档案",例如简历、个人
瞬态社会网络是指在特定时间、为特定事件、持续时间短及面对面接触所形成的社会网络。不同于在线社会网络,瞬态社会网络由于其特征,能够提供更加安全可靠的信息,但是瞬态社