论文部分内容阅读
伴随着Web 2.0技术的快速发展,用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带,并且利用各种机制不断激励问答社区中的人提供答案、解决问题。然而,交互式问答系统中往往充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信息获取的需求。本文致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种新的聚类策略,TermCut策略。该策略首先发现文档集中的核心词汇,然后按照核心词汇的出现与否聚类短文本。为了检测这些核心词汇,本文将短文本集建模成一张图的形式。在这张图中,每一个节点代表了一条短文本,而节点之间的边代表了它们之间的语义关联。这样,按照某个词的出现与否,可以二分此图使得,其中一个子图中的短文本包含此词,而另一个子图中的短文本不包含此词。选择那些能够最大化类内相似度,同时最小化类间相似度的词,作为所谓的核心词汇。TermCut然后基于核心词汇的出现与否划分短文本集,划分结果中一个簇包含该核心词汇,而另一个簇不包含此词。通过不断的二分文档集,最终,一系列的聚类结果得以形成。基于TermCut聚类策略,本文进一步提出了两种具体的聚类算法,分别是基于目标类数的TermCut (CNTC),以及基于阈值的TermCut (TTC).二者的区别在于终止条件的不同。CNTC使用先验的目标聚簇数作为终止条件。当算法已经产生了足够多的聚类时,便停止继续二分的过程。在某些特定情况下,很难获得具体的目标聚簇数。这种情况下,本文提出了TTC算法。与CNTC不同,TTC使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似度的增加和类间相似度的减少时,便终止该算法,并将结果输出。本文然后设计了一个原型系统,将所提出的短文本聚类算法应用到问题推荐中去。首先,提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不同用户的兴趣。基于该兴趣模型,可以按照用户的兴趣,将系统中的问题进行排序。排序较高的问题将被聚类,并推荐给用户。文中将会给出该算法的展示界面。