关于网络社区问答知识重用的研究

来源 :上海交通大学 | 被引量 : 5次 | 上传用户:w168730018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个(来自于用户的)问题作为输入,传统问答系统试图通过检索和分析文档来获得答案。然而,由于涉及到复杂的文档分析技术,该类系统很难在处理开放域(open domain)问题上获得成功。以上述事实为动因,本文研究如何通过重用已有的网络社区问答知识来实现自动问答。本文对于网络社区问答知识的定义不局限于来自于网络社区问答服务(如,百度知道)中的问答知识,该定义也包括分布于各种在线论坛和FAQ系统中的问答知识。问答知识以问题和答案对的形式存在(而非隐含在文档之中)。因此,相比传统问答系统而言,基于网络社区问答知识重用的自动问答不仅成功地避免了复杂的问答分析过程,同时更容易精准而有效地满足用户的信息需求。本文采取分而治之的策略,把网络社区问答知识重用的问题分解为如下四个子问题:1.问答知识的抽取:该问题包含从网络社区问答服务、FAQ系统和在线论坛中抽取问答知识。比较而言,从前两类系统中抽取问答知识相对容易。因此,本文专注于从在线论坛中抽取问答知识的研究。特别地,本文提出了一个全新的图模型来描述该抽取问题,并通过使用结构化的支持向量机(Structural Support Vector Machines)来解决其相应的优化问题。2.问题搜索和推荐:问题搜索是最通用的一种问答知识重用的机制。具体而言,给定一个查询问句,问题搜索需要返回在语义上与查询等价或接近的问句作为返回结果。问题推荐为本文提出的一种基于搜索的新的问答知识重用的机制。问题推荐试图自动发现与用查询问题主要关注点相关但是又在问题侧重点上有区别的问题。为了实现更好的问题搜索和推荐,本文提出了一种新的数据结构用于表达问题。该结构由两部分组成:问题主题和问题焦点。并以该结构为基础,针对问题搜索出了一种新型的语言模型;针对问题推荐提出了一个基于问题焦点替代的新的方法。3.问题效用评价:关于问题搜索(或推荐),本文提出了静态排序的研究问题。并以该问题为出发点,进一步提出了问题效用评价的研究问题。问题效用定义为一个问题(及其答案)可被其他人重复使用的可能性。为了实现对问题效用的自动评估,本文尝试了基于语言模型的方法和基于LexRank的方法,以及它们的组合;并评估了问题效用作为静态排序对问题搜索的影响。4.问题兴趣度预测:在网络社区问答服务中,用户通常被允许给问题添加一个意为‘interesting’的标签来表明用户兴趣的倾向性。基于该标签的标注可以用来提高基于浏览的问答知识重用。然而,这样的标注经常是稀疏的。为了解决这一数据稀疏问题,本文提出了问题兴趣度的研究问题—-自动预测一个问题有多少可能被标注为‘interesting’。为了实现自动预测问题兴趣度,本文提出了一个称为“基于群体意见的感知器”的算法。该算法能够着重于从代表多数用户意见(或观点、偏好)的实例上进行学习。
其他文献
泰森多边形应用非常广泛.对它的生成算法研究具有重要的意义。提出了一种优化的基于Delaunay三角网的泰森多边形生成算法,为算法设计了数据结构,并进行了编程实现。结果表明,算法
随着网络技术的发展和分布式技术的广泛应用,地域分散的多个组织通过Internet动态结盟并实现互操作已成为目前的研究热点。然而,在这些跨越多个管理域之间的互操作过程中,对
江汉油田住房公积金管理中心为了充分满足职工居有所需,坚持服务民生、改善民生,不断探索改进油田企业公积金管理工作。要使油田企业公积金管理工作高质量发展,必须把职工美
当前,P2P网络的流量已超过互联网带宽的60%,由此带来的安全隐患也与日俱增。主动P2P蠕虫可以通过各种安全漏洞在P2P网络中传播,它通过获取感染节点的邻居信息,对部分或全部邻居发
计算机支持的协作工作是指利用计算机技术、多媒体技术和网络通信技术,支持工作组人员在共享环境下交互协商、分工合作、共同完成协作任务,它支持多个时间上分离、空间上分布
2011年11月,英国司法部发布了《家事司法审查》,在五个大类上提出了134项改进整个英国家事司法系统的建议。2012年2月,英国司法部发布了《〈家事司法审查〉:政府的回应》,同
杰斐逊的外交思想是建立在他对美国根本利益界定的基础上的。这种界定包括两个方面:美国应该采取什么样的发展道路以及什么样的国际结构对美国最为有利。关于前者,杰斐逊认为美
QoS 组播路由就是给定一个源节点s,一组目的节点集D,一系列QoS 限制条件C,以及可能的优化目标,寻找满足C 的覆盖s 和D 中所有节点的最好的有效树,这是一个NP 完全问题。当前