问答系统中的短文本聚类研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:tao1624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web 2.0技术的快速发展,用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带,并且利用各种机制不断激励问答社区中的人提供答案、解决问题。然而,交互式问答系统中往往充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信息获取的需求。本文致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种新的聚类策略,TermCut策略。该策略首先发现文档集中的核心词汇,然后按照核心词汇的出现与否聚类短文本。为了检测这些核心词汇,本文将短文本集建模成一张图的形式。在这张图中,每一个节点代表了一条短文本,而节点之间的边代表了它们之间的语义关联。这样,按照某个词的出现与否,可以二分此图使得,其中一个子图中的短文本包含此词,而另一个子图中的短文本不包含此词。选择那些能够最大化类内相似度,同时最小化类间相似度的词,作为所谓的核心词汇。TermCut然后基于核心词汇的出现与否划分短文本集,划分结果中一个簇包含该核心词汇,而另一个簇不包含此词。通过不断的二分文档集,最终,一系列的聚类结果得以形成。基于TermCut聚类策略,本文进一步提出了两种具体的聚类算法,分别是基于目标类数的TermCut (CNTC),以及基于阈值的TermCut (TTC).二者的区别在于终止条件的不同。CNTC使用先验的目标聚簇数作为终止条件。当算法已经产生了足够多的聚类时,便停止继续二分的过程。在某些特定情况下,很难获得具体的目标聚簇数。这种情况下,本文提出了TTC算法。与CNTC不同,TTC使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似度的增加和类间相似度的减少时,便终止该算法,并将结果输出。本文然后设计了一个原型系统,将所提出的短文本聚类算法应用到问题推荐中去。首先,提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不同用户的兴趣。基于该兴趣模型,可以按照用户的兴趣,将系统中的问题进行排序。排序较高的问题将被聚类,并推荐给用户。文中将会给出该算法的展示界面。
其他文献
地处济南市南部山区的历城一中,在地理位置、生源及其他办学条件并不占优的条件下,近几年迅速由乡村薄弱高中成长为社会广泛认可的优质高中,其中的“硬道理”是什么呢?
国家对于农业经济的发展非常重视,提出了建设新农村的发展思想。在新农村建设背景下,农业经济管理模式也应随着农业的发展而不断革新,以适应农业现代化发展所提出的新要求。
本文以白云石质凹凸棒土(DPC)为载体,采用浸渍法负载Mn制备脱硝催化剂,评价其脱硝活性,并利用SEM、XRD、XPS等对典型样品进行表征分析;结果表明:Mn基脱硝催化剂脱硝活性比DPC
瞿同祖在《中国法律与中国社会》一书中认为中国古代法律的主要特征表现在家族主义和阶级观点上,这是中国法律儒家化的产物;秦汉法律为法家所拟定,纯本于法家精神。法律之儒家化
改革开放以来,我国经济发展取得了举世瞩目的成就,经济总量的规模翻了近10倍。但是我国经济的强劲发展是依靠传统的高投入、高消耗、高资本积累所带动的经济增长,并且已经引
目的临床观察内服和外用跌打七厘片治疗急性腰扭伤的疗效。方法将患者随机分为跌打七厘片内服组(A组)、跌打七厘片外用组(B组)和跌打七厘片内服+外用组(C组),疗程均为15 d。
期刊
介绍了以双能量γ射线透射等为代表的6种常用煤炭灰分在线检测技术的基本原理、技术特点、主要优缺点,并对测量精度、适用范围、可靠性、安全性及性价比等主要指标进行了对比
随着新课改以来素质教育的落实,给教育领域带来了很多的革新,在初中英语教学中应用分层教学法就是其很好的表现形式。在当前传统初中英语教学不能有效满足学生的英语个性化发展需求时,探索分层教学法在英语教学中的运用就成为英语教师重点要研究的课题,在实际教学中,教师要正确看待分层走班教学模式的教学原则,从而从不同角度出发完成教学分层,兼顾学生的不同学习进度,促进学生的英语个性化学习成长。  1. 分层走班教学
介绍一例烯烃循环水换热器发生内漏后,丙烯泄漏至循环水,引起循环水各项水质指标恶化事件;分析了丙烯泄漏的危害和改善循环水水质的难点;制定了有针对性的控制措施;保证了生