【摘 要】
:
作为信息抽取与知识库构建之间建立联系的手段,实体链接在自然语言处理研究中越来越凸显其重要性。而目前中文实体链接研究方面,既缺乏相关基准语料库,更无从比较各种方法的
论文部分内容阅读
作为信息抽取与知识库构建之间建立联系的手段,实体链接在自然语言处理研究中越来越凸显其重要性。而目前中文实体链接研究方面,既缺乏相关基准语料库,更无从比较各种方法的优劣。本文首先从构建语料库开始,然后通过查询扩充的方式生成候选集合,最后通过基于相似度计算的方法和基于有监督学习的方法来研究中文实体链接,研究内容包括:1)在ACE2005中文语料库以及中文维基百科离线数据包的基础上,采用自动生成和人工标注相结合的方法,构建了一个中文实体链接语料库以及相应的知识库,并对语料库进行了统计和分析,同时还实现了一个中文实体链接的基准系统,初步揭示了在本语料库上实现实体链接的难度。2)在传统的信息检索生成查询表述候选集合的基础上,结合本文所构建语料库的特点,通过查询扩充的方式生成候选集合;其次,在本文所构建的语料库上使用了基于相似度计算的方法,并比较了各类相似度对性能的影响。3)探索了基于有监督学习的实体链接方法和多种语言特征在中文实体链接系统中的作用。通过统计机器学习方法来融合实体表述的表述特征、读音特征、上下文特征等各类语言特征,采用有监督学习的方法实现中文实体链接。在自行标注的中文实体链接语料库上的分析和实验表明:首先,对于候选集合的生成问题,可以通过查询扩充的方式取得较高的召回率以及较小的候选集合规模;其次,基于有监督学习的中文实体链接方法克服了采用相似度计算很难融合多种特征的缺点,取得了较好的整体性能。
其他文献
提出一种非相干字典学习及稀疏表示方法,并将其应用于单幅图像去雨。该方法在字典学习阶段,为降低有雨原子与无雨原子间的相似性,引入字典的非相干性,构建新的目标函数,不仅
回顾了目前非线性失真客观测量方法,及其不能够充分反映电声系统非线性失真特性的原因,并介绍了国内外非线性失真主客观音质评价的最新科研成果,指出利用多频声评价非线性失
本文从概念、逻辑和形式上对测量仪器的误差和测量不确定度进行了分析与研究,深入浅出的剖析了测量仪器的示值误差、最大允许误差和测量不确定度之间的关系。旨在引起重视、
本文选择传播要素中的"传者",作为分析健康传播症结的思考维度,通过对目前中国健康传播中议程设置和说服策略方面的乱象进行梳理,探究其背后的深层原因,旨在为问题的纠正提供
综述了达克罗技术的近期研究进展,指出通过添加二氧化硅、碳化硅等纳米微粒可有效提高涂层的性能;最新研制出的无铬达克罗可有效提高其环境友好性。
<正>20年前,尼葛洛庞蒂在他撰写的《数字化生存》一书中讲到:"比特(计算机的最小存储单位),作为信息时代新世界的DNA正迅速取代原子成为人类社会的基本要素。"当时看到这样的
民间信仰作为一种常态的文化面貌,并非是一种超越社会文化的抽象概念的存在,其精神文化因素往往活跃地扭结在丰富多彩的社会文化中。而有关婚育的民间信仰又在整个民间信仰中
中国油画人物在中国油画发展史上一直占据着非常重要的地位,尤其是新中国以来,以油画人物著称的画家数不胜数。郭润文先生是现当代中国油画界典型油画人物画家表代之一,从八
本文以《北洋画报》和刘云若小说为研究对象,着力探讨二十世纪二三十年代的“津味”。论文的正文部分一共分为三章,第一章的内容是天津的地理位置、工商业、新闻出版、文学概