论文部分内容阅读
给定一个(来自于用户的)问题作为输入,传统问答系统试图通过检索和分析文档来获得答案。然而,由于涉及到复杂的文档分析技术,该类系统很难在处理开放域(open domain)问题上获得成功。以上述事实为动因,本文研究如何通过重用已有的网络社区问答知识来实现自动问答。本文对于网络社区问答知识的定义不局限于来自于网络社区问答服务(如,百度知道)中的问答知识,该定义也包括分布于各种在线论坛和FAQ系统中的问答知识。问答知识以问题和答案对的形式存在(而非隐含在文档之中)。因此,相比传统问答系统而言,基于网络社区问答知识重用的自动问答不仅成功地避免了复杂的问答分析过程,同时更容易精准而有效地满足用户的信息需求。本文采取分而治之的策略,把网络社区问答知识重用的问题分解为如下四个子问题:1.问答知识的抽取:该问题包含从网络社区问答服务、FAQ系统和在线论坛中抽取问答知识。比较而言,从前两类系统中抽取问答知识相对容易。因此,本文专注于从在线论坛中抽取问答知识的研究。特别地,本文提出了一个全新的图模型来描述该抽取问题,并通过使用结构化的支持向量机(Structural Support Vector Machines)来解决其相应的优化问题。2.问题搜索和推荐:问题搜索是最通用的一种问答知识重用的机制。具体而言,给定一个查询问句,问题搜索需要返回在语义上与查询等价或接近的问句作为返回结果。问题推荐为本文提出的一种基于搜索的新的问答知识重用的机制。问题推荐试图自动发现与用查询问题主要关注点相关但是又在问题侧重点上有区别的问题。为了实现更好的问题搜索和推荐,本文提出了一种新的数据结构用于表达问题。该结构由两部分组成:问题主题和问题焦点。并以该结构为基础,针对问题搜索出了一种新型的语言模型;针对问题推荐提出了一个基于问题焦点替代的新的方法。3.问题效用评价:关于问题搜索(或推荐),本文提出了静态排序的研究问题。并以该问题为出发点,进一步提出了问题效用评价的研究问题。问题效用定义为一个问题(及其答案)可被其他人重复使用的可能性。为了实现对问题效用的自动评估,本文尝试了基于语言模型的方法和基于LexRank的方法,以及它们的组合;并评估了问题效用作为静态排序对问题搜索的影响。4.问题兴趣度预测:在网络社区问答服务中,用户通常被允许给问题添加一个意为‘interesting’的标签来表明用户兴趣的倾向性。基于该标签的标注可以用来提高基于浏览的问答知识重用。然而,这样的标注经常是稀疏的。为了解决这一数据稀疏问题,本文提出了问题兴趣度的研究问题—-自动预测一个问题有多少可能被标注为‘interesting’。为了实现自动预测问题兴趣度,本文提出了一个称为“基于群体意见的感知器”的算法。该算法能够着重于从代表多数用户意见(或观点、偏好)的实例上进行学习。