基于Word2Vec的SCI地址字段数据清洗方法研究

来源 :情报杂志 | 被引量 : 0次 | 上传用户:baochangjingmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立“机构名称映射表”,达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立“机构名称映射表”完成清洗。[结果/结论]通过实证分析发现,第一
其他文献
1935至1948年间,中国共产党中央委员会扎根于陕北地区,领导和指挥抗日战争和解放斗争取得伟大胜利。中国共产党在这里大力发展初等、中等、高等三级学校教育,取得了辉煌的成
为了解决水利工程移民遗留问题管理数据量大、涉及面广、不便统计、分析和管理等问题,该文开发了一个水利工程移民遗留问题管理信息系统.该系统采用模块化设计思想,具有良好
浅部真菌病的发病率在大学生中一直很高.曾有报道,大学新生中浅部真菌病的患病率为6.1%[1].根据大学生浅部真菌病发病特点和大学生的条件因素,我们试用2%碘酊治疗,现报道如下
椭圆曲线密码体制以其特有的优越性被广泛用于进行数据加密和构建数字签名方案。同样,它也可以用来构建用户身份认证方案。设计了一个新的基于椭圆曲线上的用户身份认证方案,这
研究了IP多播安全问题,提出了一种基于主动网络的安全多播技术.它能够比较好地解决IP多播中的数据保密性、完整性、多播组成员的身份认证与管理等问题;同时通过基于主动网络
给出了虚拟内窥镜系统的组成框架,并详细分析了其中的关键技术.为了满足远程医疗的需求,设计了一个基于远程医疗的交互式虚拟内窥镜系统,同时给出了实现该系统的技术要点和方
宗族是中国传统社会中较普遍的一种组织,宗族之经济支撑族田亦是近代经济史研究的重要内容。土改之前的山东族田来源渠道多元、规模较小,在管理上通过严选管理人、保存所有权
《西北工合》是在抗战文化繁荣和西北工合运动蓬勃发展的背景下创办起来的宣传刊物,该刊物的稿件主要是由参加过乡村建设运动和流亡西北的知识分子所提供的。其创刊的目的是
针对喷推叶轮的结构特点 ,提出了切实可行的数控加工方案 ,综合运用先进制造技术 ,主要包括 :毛坯余量的三坐标测量 ,加工定位基准的选择和夹具的设计 ,叶轮各个型面加工顺序和数控加工方法的确定及加工刀具的选择 ,计算机仿真加工和碰撞检查 ,零件在机床上找正定位等 ,最终在此基础上 ,采用五轴联动数控加工方法 ,加工出合格的喷推叶轮