论文部分内容阅读
随着互联网技术的蓬勃发展,知识的存储介质从传统图书馆转向了在线知识库(如维基百科,百度百科等),人类管理和获取知识的方式也逐渐从线下转向线上。在线知识库(本文中简称为知识库)已经成为各项互联网应用的重要数据支持来源。目前在线知识库的维护和更新主要依赖于人工编辑,导致现有的大规模在线知识库很难及时更新。知识库的时效性已经成为制约知识库广泛应用的瓶颈。在线知识库累积引文推荐技术目的是利用计算机强大的信息处理能力,从海量互联网文档中过滤出与知识库实体相关的文档,并将其中真正重要的文档作为引文推荐给知识库维护人员,加快知识库的构建和更新。本论文的主要工作和贡献总结如下:首先,介绍了知识库构建加速和累积引文推荐的研究背景,较为全面地总结了该领域的研究成果及其优缺点,为本文的后续工作提供了理论基础。第二,介绍了知识库累积引文推荐任务和机器学习方法,包括查询扩展、分类和排序学习;为机器学习方法设计了语义特征和时序特征,并使用标准数据集进行了验证。第三,由于某些知识库实体没有足够多的训练数据,无法为其训练相关模型,本文提出一种全局判别模型,利用所有的训练数据训练一个通用分类模型,该方法在TREC-KBA-2013国际评测中取得了三项第一。由于完全忽略了实体之间的联系,全局模型很难保证为每个目标实体实现理想的引文推荐效果。为了解决这个问题,在全局模型的基础上引入表示实体类别的隐含层,本文实现了一种实体类别依赖的混合判别模型。该混合模型可以充分利用训练数据,建模实体和隐含类别之间的联系,灵活地处理不同类型的目标实体和训练集中未出现的实体,泛化能力更强。第四,考虑到引文推荐任务中引文的质量问题,本文通过在全局判别模型中引入表示文档类别的隐含变量,提出一种文档类别依赖的混合判别模型。通过考虑文档的来源和文档的主题分布,建立了文档和其隐含类型之间的概率语义分布,使得模型可以灵活处理不同类型的文档。实验结果表明该模型能显著提高引文推荐的准确率和精确度。第五,详细研究了知识库引文推荐的冷启动问题。现有引文推荐方法主要处理目标实体已经存在于知识库中的情况,如果目标实体在知识库中没有主页,监督式学习方法中使用的特征集会面临稀疏问题。针对这一问题,本文提出一种基于实体相关事件的语句聚类和文档排序结合的方法,首先抽取文档中的提及目标实体的语句进行聚类,然后在语句级别进行特征抽取,最后进行文档排序学习。实验结果表明该方法能有效冷启动引文推荐中的特征向量稀疏问题。