论文部分内容阅读
随着问答社区(community-based Question Answering)的兴起,大量的问答资源在用户的交互中产生,为具有相似问题的用户解决问题提供了参照。问答资源中有一类问题称为意见选择类问题,即提问者询问某种观点是否正确或者某种行为是否可行。用户浏览这类问题可能出现的一个麻烦是答案繁多,不便于用户快速掌握所有回答者对于问题的意见的全貌。针对这一情况,本文做了以下几个方面的研究:第一,本文将意见选择类问题的答案看做有情感倾向性的文本,使用无监督学习和有监督学习两类方法对答案进行情感极性的判断。无监督方法学习通过使用基于WordNet的方法来计算词的情感极性,进而计算答案的情感极性。有监督方法通过朴素贝叶斯模型、SVM模型和最大熵模型对答案的极性进行分类,并使用集成分类方法进一步提升分类的准确率。最后实验验证了几种方法在判断答案极性方面的有效性。第二,本文使用了基于MMR模型的文摘方法对答案文本以句子为文本单位进行了摘要研究,使用WordNet对答案进行词集的扩充以解决短文本所造成的稀疏性问题。之后本文提出了融合情感极性信息和MMR模型的答案摘要方法,结合答案文本的情感倾向信息对MMR模型做出了三种不同的改进。最后使用ROUGE评价标准对模型的有效性进行评价。实验证明融合情感信息可以提升MMR模型进行答案摘要的效果,其中利用情感信息来更准确的刻画句子相似性对于改进摘要效果最为显著。第三,实现了一个基于CQA答案融合资源的意见查询系统。系统利用Yahoo! Answer问答社区信息,对与查询相关的问答资源进行了答案融合并以良好的方式进行了呈现。