一种无需手工标注的半监督学习关键词抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:cdzq911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据集的前提上的,无法在低资源环境下快速运用.本文提出了一种考虑词频、词长以及词大小写特征的无监督算法以及结合了该无监督算法的自扩展迭代的半监督学习关键词抽取方法.半监督学习方法在同样无需手工标注关键词的前提下,相比无监督算法具有更高的F1值.
其他文献
电动修复技术可能是唯一可行的低渗透性污染土壤原位修复方法,受到广泛关注。本文尝试总结论述了电动修复技术去除土壤重金属污染的相关研究进展,介绍了电动修复技术的基本原理及局限性,探讨比较各种强化电动修复技术的方法,包括电极接近法、交换电极法、离子交换膜、电场强化法(垂直电场、交流电场、脉冲电场)、试剂强化法(pH调节、螯合剂、表面活性剂),重点阐述目前新的螯合剂和表面活性剂的开发研究状况,以及电动修复
农产品贸易是国际贸易的重要部分,随着跨境电商的发展,对农产品跨境电商贸易效率和潜力的研究具有越来越重要的意义。从网络发展水平、通关效率和物流效率出发,利用主成分分析法,对2010—2019年与中国在农产品贸易上往来密切的33个国家的跨境电商发展指数进行测算,并将其作为核心变量,引入随机前沿引力模型进行实证分析。结果表明:各国跨境电商发展极不平衡;贸易双方的人均GDP、进口国跨境电商发展水平等对农产
俄罗斯于21世纪初先于我国10年开展了国土规划体系改革,其经验和教训对我国当前的国土空间规划体系建构具有一定借鉴价值。计划经济向市场经济的快速转型,使得俄罗斯国土规划体系具有新旧杂糅的特点,体现为多层级传导、多类型协调和多区域协作等。本文通过梳理进入21世纪以来俄罗斯在国土规划领域的改革,从规划立法、管控、编制等方面,探讨了以苏联时期规划体系为基础的俄罗斯国土规划制度特征、构成体系和传导方式,进而
<正> 导言在地球上很多干旱地区,为了解决饮用水的供应,目前已普遍采用海水淡化技术,很多国家如科威特、卡塔尔、阿拉伯联合酋长国、沙特阿拉伯、利比亚及一些岛屿,如库拉索岛或加那利群岛均进行了大规模的规划。海水淡化有很多种方法。目前发展最快的是多级闪发式。据最新报道,世界上已安装的海水淡化设备有95%是按此原理工作的。第一
期刊
为克服医学科技成果转化周期长、转化过程慢、转化特点突出等问题,加快医学科技成果转化的进程,将推动医学科技成果转化作为公立医院高质量发展的重要环节和手段,通过理论梳理和现状分析,归纳总结出医学科技成果转化的难点和问题,并从规划、政策等宏观层面和服务、人才、合作等微观层面探究如何推进公立医院科技成果转化能力建设,助力医院高质量发展,为人民健康提供更全面的保障。
为梳理科技成果转化具体环节,探索影响科技成果转化的关键因素,引用知识基因理论,类比知识基因遗传和表达,提出知识基因视角下科技成果转化需要的四大基本要素:科技DNA、科技RNA、酶和科技性状,并将科技成果转化过程划分为识别、转录、翻译、组合、扩散5个阶段,在此基础上构建科技成果转化评价指标体系,以2016—2020年中国内地30个省域面板数据为样本进行实证检验。通过灰色关联度计算和障碍因子识别发现:
以宁波市为例,探索多源大数据推动智慧国土空间规划编制与实施中的科技创新。按照"数据体系标准化-知识分析模型化-场景应用数字化"的技术路线,围绕国土空间规划业务的全流程,在人口、用地、产业、经济等方面开展多尺度、多方位的多源大数据分析研究,支撑总体规划、专项规划、详细规划等不同类型研究。建立了全流程贯通的大数据治理体系,构建了多源知识模型智能分析中心,研发了国土空间智慧协同平台,为数据精准化、监管全
加强高职学生培养,塑造优秀中国特色专业人才,可促进我国高等职业教育建设发展。因此,要求高职院校应以双高建设作为落脚点,始终坚持以学生角度出发,切实加强教育工作,在保障自身教育质量的同时,优化实际教育获得,提升学生就业能力,确保学生能够实现优质就业。本文以双高建设作为背景,以高职院校作为研究重点,在阐述双高建设、就业能力等概念的基础上,结合当前学生就业能力现状,具体对学生就业能力提升路径进行探索,以