在线知识库累积引文推荐技术研究

来源 :北京理工大学 | 被引量 : 2次 | 上传用户:blacksi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,知识的存储介质从传统图书馆转向了在线知识库(如维基百科,百度百科等),人类管理和获取知识的方式也逐渐从线下转向线上。在线知识库(本文中简称为知识库)已经成为各项互联网应用的重要数据支持来源。目前在线知识库的维护和更新主要依赖于人工编辑,导致现有的大规模在线知识库很难及时更新。知识库的时效性已经成为制约知识库广泛应用的瓶颈。在线知识库累积引文推荐技术目的是利用计算机强大的信息处理能力,从海量互联网文档中过滤出与知识库实体相关的文档,并将其中真正重要的文档作为引文推荐给知识库维护人员,加快知识库的构建和更新。本论文的主要工作和贡献总结如下:首先,介绍了知识库构建加速和累积引文推荐的研究背景,较为全面地总结了该领域的研究成果及其优缺点,为本文的后续工作提供了理论基础。第二,介绍了知识库累积引文推荐任务和机器学习方法,包括查询扩展、分类和排序学习;为机器学习方法设计了语义特征和时序特征,并使用标准数据集进行了验证。第三,由于某些知识库实体没有足够多的训练数据,无法为其训练相关模型,本文提出一种全局判别模型,利用所有的训练数据训练一个通用分类模型,该方法在TREC-KBA-2013国际评测中取得了三项第一。由于完全忽略了实体之间的联系,全局模型很难保证为每个目标实体实现理想的引文推荐效果。为了解决这个问题,在全局模型的基础上引入表示实体类别的隐含层,本文实现了一种实体类别依赖的混合判别模型。该混合模型可以充分利用训练数据,建模实体和隐含类别之间的联系,灵活地处理不同类型的目标实体和训练集中未出现的实体,泛化能力更强。第四,考虑到引文推荐任务中引文的质量问题,本文通过在全局判别模型中引入表示文档类别的隐含变量,提出一种文档类别依赖的混合判别模型。通过考虑文档的来源和文档的主题分布,建立了文档和其隐含类型之间的概率语义分布,使得模型可以灵活处理不同类型的文档。实验结果表明该模型能显著提高引文推荐的准确率和精确度。第五,详细研究了知识库引文推荐的冷启动问题。现有引文推荐方法主要处理目标实体已经存在于知识库中的情况,如果目标实体在知识库中没有主页,监督式学习方法中使用的特征集会面临稀疏问题。针对这一问题,本文提出一种基于实体相关事件的语句聚类和文档排序结合的方法,首先抽取文档中的提及目标实体的语句进行聚类,然后在语句级别进行特征抽取,最后进行文档排序学习。实验结果表明该方法能有效冷启动引文推荐中的特征向量稀疏问题。
其他文献
农产品安全问题是我国新时期农业和农村经济发展的主要问题,已经直接关系到消费者的身心健康、农民增收、农村稳定、农业的发展。 浙江省金华市在政府的高度重视下,金华市
目的探讨护理人员循证护理实践应用过程中存在的障碍因素。方法 2013年5月~2014年2月,选择深圳5家综合医院,采用按科室分层按病区随机整群抽样法选取855名护理人员,应用"中文
目的调查宫颈癌患者病耻感的现状,探讨其影响因素。方法采用社会影响量表(the social impact scale,SIS)和患者人口学资料调查问卷对206例宫颈癌患者进行调查,并分析影响宫颈
目的:构建含人类免疫缺陷病毒1型(HIV-1)病毒颗粒蛋白表达调节因子(regulator of virion protein expression,Rev)编码基因的重组真核表达质粒并初步探索Rev基因编码蛋白对人类疱
联合作战概念的出现和无人机多任务使命的实际运用,使得无人机联合作战成为世界各国研究发展的重点。基于协同作战和联合作战的内在联系及国内多无人机协同作战有关理论上的
“我童年时,是使用银元的时代。”$$ 这是民国中医陈存仁回忆录《银元时代生活史》的开篇,浅浅一句,就带回一个旧时代的几多辰光。该书生动详实,绘声绘色,更难得日常开支历历在录
报纸