基于决策树算法的专利发明人姓名消歧研究

来源 :科学与管理 | 被引量 : 0次 | 上传用户:fuyueliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现高质量的数据清洗,提升专利数据构建网络的准确性,发明人的姓名消歧已经成为目前国内外众多研究者重视的关键性问题。本文根据中文姓名的特殊性,选取专利数据中分层抽样采集到的400个姓名对,使用半监督学习算法,以特征向量(如分类号相似度)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题,并对分类模型的准确率与可靠性进行了评估。以国内通讯行业专利数据为实例的研究表明:采用该分类模型进行清洗能够有效提升数据清洗的效率和精确度。
其他文献
借鉴经济合作与发展组织(OECD)的绿色专利识别方法,本文建构了2007—2017年中国城市尺度的绿色专利申请量时空数据库,从而揭示了2007—2017年中国绿色技术创新活动的时空分布特征,并基于空间杜宾模型探讨了其影响因素。研究发现:(1)时序发展上,无论是在专利申请量上还是城市参与度上,绿色建筑技术一直主导中国绿色技术创新发展,11年间绿色建筑技术领域专利申请量占整体的比例一直维持在30%以上
城镇化是城镇和乡村人口变动共同作用的结果。本文从城乡人口变动的视角提出了城镇化地域类型的划分方法,基于历次全国人口普查数据,考察了中国城镇化地域类型的时空演变及其影响因素。研究发现中国的城镇化于1990年后进入快速阶段且当前仍在加速,但城镇化的实现路径存在较强的时空动态性:(1)随着人口自然增长减缓和乡城迁移扩张,全国城镇化地域类型由城乡扩张型转变为城镇吸引型,乡村人口减少对城镇化的贡献持续增强;
起步于上世纪80年代的信用评级行业发展至今仍不断有新的评级机构进入市场,行业竞争愈发激烈。伴随2021年监管层“取消强制评级”的决议公布,评级机构业务压力进一步加大。为此,评级机构需采取一定的评级策略来维护市场地位。本文基于这一背景探究了评级机构常用的3种评级策略对评级机构的市场份额的影响,深入剖析了当前信用评级市场的竞争现状。本文以2016年到2020年发行的四种信用债为样本,研究了评级结果、评
新兴的负排放技术(NETs)被认为是减少二氧化碳排放的有效措施,而生物质能源与碳捕集和储存(BECCS)作为最重要的NETs之一,将有效地帮助《巴黎协定》缔约国完成设定的目标。《“十四五”规划和2035年远景目标纲要》中指出碳捕集是节能减排工作的重点,在一系列政策支持下,碳捕集、利用与封存(CCS)技术正在蓬勃发展,将为实现“碳达峰”和“碳中和”目标做出巨大贡献。CCS的发展将为BECCS的大规模
国内部分幼儿园教师的专业素养不强,自我效能感比较低,以及社会的相关体制机制和社会文化的影响,造成部分幼儿教师的职业幸福感不高。在基于心理弹性理论的支持下,从幼儿教师的心理建设、专业发展、社会文化支持、学校环境氛围创造以及组织支持等方面,来提高幼儿教师职业的幸福感。
为获取既能全面反映动力学特性,又能实现实时控制的Stewart并联机构动力学模型,设计一种Stewart并联机构动力学模型的时延估计方法,在线获取其动力学模型;为解决喷砂除锈并联机器人系统中存在的不确定性问题,设计一种Stewart并联机构无模型自适应实数幂非奇异终端滑模控制算法,通过将终端滑模面参数的指数幂由分数幂推广到实数幂,放宽滑模面参数取值范围,并且实现在有限时间内收敛,以提升Stewar
先进科学技术在档案管理领域发挥了重要作用,大数据技术、人工智能技术、云计算技术和信息技术等被充分应用。新时代档案的管理量飞速增长,原本的纸质管理转变为数字化管理方式,有效提高了管理效率。档案管理数字化转型可以解决传统纸质档案管理过程中出现的弊端,如档案容易损坏、应用困难、人工操作流程较为繁杂等。论文基于档案管理数字化内涵和流程,探讨档案管理数字化转型面临的挑战和转型的策略。
<正>肺动脉高压(pulmonary arterial hypertension, PAH)指肺动脉压力升高超过一定界值的肺循环血流动力学异常状态,当肺动脉压大于体循环压,出现肺动脉高压危象[1-2]。PAH不能仅限于药物治疗,做好疾病的预防、病情的缓解与症状控制。运动是PAH康复的基石,可改善缺氧状况、肺功能和运动能力,提高生活质量以及社会参与能力,降低社会卫生经济负担[3-12]。本文对202