概念实例自动提取方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sxh6916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概念是知识表示的核心要素。因此,概念的提取是知识提取中最核心的任务。如何有效地从各类资源中挖掘概念实例是知识提取研究中的一个关键问题。本文分别针对特定领域文本的概念实例提取和基于Web的概念实例提取进行了研究。   具体包括以下两方面的研究:   1)特定领域文本的概念实例提取的任务是:给定一个指定的领域文本,从其中提取出该领域中所有的概念实例。本文提出一种融合单元度计算和领域度计算的中文术语自动提取方法,利用候选术语的内部结合紧密度和外部自由度来计算单元度。进一步,提出了一种基于术语部件的领域度计算方法,利用术语部件的领域权重和位置信息模板计算候选术语的领域度。   2)基于Web的概念实例提取的任务是:给定一个特定的概念类别,从互联网中提取出该类别下所有的概念实例。本文提出了一种基于Web弱指导的概念实例和属性同步提取的方法。利用小规模的种子实例和属性集,从Web上自动获取实例和属性共现的上下文模式,并利用种子实例和属性的关联性来评价这些模式。进一步,根据上下文模式提取候选概念实例和属性后,本文利用概念实例和属性的关联性,以及候选实例或候选属性与种子实例或属性在上下文模式分布上的相似度来评价候选。进一步,为了克服概念实例评价中对种子属性的依赖,以及充分挖掘概念实例和种子实例之间的关系,本文提出了一种基于关系图的概念实例评价方法。   实验结果表明,本文的方法在多个领域的概念实例提取中都有较高的准确率和覆盖率。
其他文献
本研究的目的是提出一种有效的求解大规模工程问题的计算方法。就实际的工程问题而言,其涉及的计算量往往很大且需要耗费大量的计算时间,同时对内存容量的需求也很高,从而导
学位
Web应用离不开数据的持久化。持久化是用来保证数据值的生命周期满足应用程序的要求,具体而言,是将应用程序中的数据值保存到非易失性存储介质(如硬盘、闪存等等)中。传统的Web应
虚拟战场是虚拟现实技术在军事领域的重要应用。计算机技术和图形图像技术的发展带动了虚拟战场技术的长足进步。在新时期部队模拟作战和军事训练中,通过虚拟战场全面掌握战
eDonkey网络是当今流行的P2P文件共享系统之一,近年来对eDonkey网络的研究越来越深入,涉及到资源的分布、用户行为、污染的程度评估与传播、网络流量特征和聚集性等。由于用
随着多处理器、多核、众核技术的广泛应用,虚拟机技术也得到了长足发展。在多核虚拟化环境中,并发运行的虚拟机会由于竞争使用有限的底层缓存和总线带宽等共享资源,而出现严重的
随着互联网技术的飞速发展,新闻网页、电子邮件、博客日志等文本信息的数量急剧增长,信息过载与知识匮乏之间的矛盾日益突出。对海量文本信息高效组织与处理成为当前信息需求
作为信息隐藏的一个重要方向,隐写技术致力于在数字载体中嵌入一定容量的秘密信息,并使得嵌入后的载体能够从视觉感官和隐写分析的角度都具有不可感知性。人类视觉系统具有以
中枢神经系统疾病(CNS disorders)是一组由慢性进行性中枢神经组织退行性变性而引起的疾病总称,主要包括:帕金森病(Parkinsons disease,PD)、脑小血管病(Cerebrovascular disease
随着计算机技术和通信技术的迅速发展,用户需求不断深化与增长,网络规模日益增长,计算机网络应用越来越广泛,用户业务对信息技术的依赖性日益增加。同时,网络病毒、黑客入侵、拒绝
学位
微米木纤维模压加工过程是一个高度复杂的过程,具有非线性、时滞、高维等特性。模压产品具有较高的密度,可以用于装饰装潢,具有较高的应用价值。握钉力是衡量材料力学物理性能的一个重要指标,当材料使用螺钉相连接时,握钉力大小就显的尤其重要。因此,对模压产品的握钉力进行预测成为微米木纤维模压加工研究的重要课题。本文以模压的汽车换挡杆手柄为对象,将机器学习引入到模压产品的握钉力预测上,通过机器学习方法找到一种有