基于无监督聚类的命名实体分类研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:jiangchong122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体分类是近年来信息抽取的重点研究领域之一,旨在对文本中的实体进行类别划分,传统的实体分类任务可识别类型少,而现实生活中实体类型复杂多样,更详细的类别划分将为信息抽取提供更丰富的信息。目前命名实体分类在监督领域已实现较大的突破,性能具有较大的改进。然而对于特定领域,如军事、医学以及小语种等领域,存在实体标注成本高、耗时长等限制;因此无监督的实体分类具有较高的研究价值,早期无监督实体分类主要通过手工提取特征辅助实体分类,移植性较差,其次,无监督聚类算法在实体分类任务上受参数、数据分布以及维度的限制导致无监督领域发展一直滞后于监督领域,针对以上问题,本文提出基于英文的特征聚类细粒度分类方法,以获取多种特征丰富语义信息,并优化聚类算法适用于细粒度层次分类任务,关于联合表征聚类的细粒度实体分类任务,其研究内容如下:(1)为丰富分类任务的特征信息输入,在不需要任何注释数据的环境下,本文提出联合表征的细粒度实体分类方法。联合表征方法旨在丰富分类任务的特征信息输入,使用三种表征即单词级表征、句子级表征、实体级表征,基于单词、短语以及专业词使用不同特征提取通道得到不同形式的表征结果,丰富模型特征种类信息以提高模型不同领域的泛化能力,实验证明使用联合表征模型有效提升实体分类性能,在不依赖数据标注的情况下,将本文联合表征模型迁移到不同数据集,结果表明本文联合表征方法具有更高的分类精度以及普遍适用性,相较于最新模型,精确度F1值与召回率R分别提高6%和4%的幅度。(2)针对层次聚类算法对数据分布敏感以及时间复杂度高的问题,本文提出基于复杂分布数据的层次聚类优化算法。首先设定合并阈值,将三种表征输入层次聚类,相似度达到阈值及以上合并为一簇,通过聚类将相似特征组合在一起,每个簇分配一个实体级表征,并组合进行链接知识库预测实体类别,并通过细粒度指标选择类别信息最长路径赋予整个簇,最后在生物医学数据集将本文模型与最新监督模型进行比较分析,本文实现与监督模型可竞争性的结果。
其他文献
该文运用文献资料法、观察法,对初中生在体育中考跳绳训练和考试中需要注意的细节进行综述和分析。通过对日常体育教学中采用的跳绳的动作方法、握法、量法、练习方法和注意细节进行概括,以求为广大体育教师和初中生提供参考和借鉴。
着眼现阶段我国经济社会发展环境、条件的变化,习近平总书记提出,要推动形成以国内大循环为主体、国内国际“双循环”相互促进的新发展格局。改革开放以来我国经济呈现逐步稳定的增长,投资、消费、净出口作为拉动经济增长的三驾马车,对促进经济健康发展发挥着不可替代的作用。以国内大循环为主体,积极建立完备的内需体系,实际上离不开扩大国内需求。关于扩大有效需求的问题,经济学界都有大量的理论珠玉在前。国内的学者和专家
在兽医领域内,奶牛乳房炎成为阻碍养殖行业经济水平提升的一种病症,划分临床类型以及隐性类型,前者的症状相对显著,乳房组织体现出一定红肿现象和胀热现象;后者的症状不够显著,存在着观察与判断难度,应及时通过设备准确判断。研究奶牛乳房炎的发病原因(微生物感染、饲养问题、个体层面、环境影响),对其科学诊断与诊治是比较重要的,本文以此为基础,从隔离患病奶牛、设定优质圈舍环境,关注饲养管理、规范管理奶牛以及科学
水资源紧缺已经成为制约河北省经济社会健康发展和生态环境持续改善的主要资源瓶颈之一,合理开发、科学调配有限的水资源是解决河北省水资源安全保障问题的必要路径。本文分析了2010—2021年河北省水资源开发利用情况,结果表明,近10年河北省本地水资源仍呈现持续衰减趋势,地表水、地下水资源量均呈现减少趋势,下降速率分别为1.37亿m~3/a和1.34亿m~3/a;南水北调工程通水后,供水结构得到优化,地表
企业财务绩效是财务管理的重要内容,也是实现企业价值的重要渠道。本文采用平衡记分卡先进的分析工具,以企业财务绩效为管理目标,对企业价值链管理进行分析,旨在优化企业财务管理流程,实现企业再造和基业长青。
燃料电池作为新能源拥有经济环保与利用率高等优点,然而,由于受到高成本贵金属催化剂的限制而使燃料电池很难商业化。因此,本文制备了三种成本较低且性能较好的非贵金属Ni基催化剂,研究其对甲醇燃料电池的催化作用,主要内容如下:(1)采用溶剂热法制备了乙酰丙酮镍(Ni(acac)2)与金属有机框架ZIF8的混合前驱体,之后高温碳化得到NiNC电催化剂。通过紫外吸收光谱分析确定Ni(acac)2被限制在ZIF
对实验室研究的一款修护舒缓乳霜功效探讨,并进行人体临床功效测试,评价其修护,褪红,舒缓功效。选择32名18~40岁敏感肌的健康志愿者作为研究对象,通过使用修护舒缓乳霜前后对比;每天2次,早晚各1次,连续使用4周,比较在使用产品前W0、使用产品W4后采用经皮水分流失仪(TewameterTM300)对比测试经皮失水率TEWL、面部图像分析仪(VISIA-CR)拍照对比脸颊红区变化、以及皮肤科医生通过
当储煤仓跨度较大时,常见钢结构形式的储煤仓存在用钢量大、自重大的缺点。索桁架结构用于大跨度储煤仓可以解决上述不足。但大跨度索桁架结构储煤仓屋盖的施工具有一定难度,因此该文对大跨度索桁架结构储煤仓屋盖的施工方案进行研究。首先针对大跨度索桁架结构储煤仓屋盖的特点提出“低空组装索系,整体提升分级张拉”的施工方案,其次利用有限元软件MIDAS Gen对拟定的施工方案进行模拟计算,并对稳定索、承重索索力及屋
水文水资源数字化监测是一种应用网络数据传输、计算机处理以及微电子集成的新兴模式,通过实施整体数字化分析和信息采集替代传统的监测预报模式。文章详细阐述了水文水资源数字化监测系统概况和设计原则,探讨了主控制器、传感器、通信、电源等系统模块及其主要构成与功能,旨在为水资源状况的精准预判以及降低旱涝灾害损失等提供一定技术支持。
伊伐布雷定的主要作用是降低心率,而不影响心内传导、心肌收缩力或心室复极。对于有β受体阻滞剂使用禁忌或不能耐受的心力衰竭患者,可作为降低心率的有效药物,使舒张期的持续时间延长。该文介绍伊伐布雷定对心力衰竭、冠状动脉粥样硬化性心脏病、肺动脉高压和病毒性心肌炎等疾病的疗效及安全性。