基于词语权重分析的中文文本相似检测技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:meteorwei66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今互联网环境下,愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象,这将导致大量核心内容甚至全部内容一样的文档产生。这些近似或重复文档在文件存储和信息检索任务中都会耗费大量的成本和时间,也会对互联网信息的质量和传播造成一定负面影响。因此,为了减少此类文档所带来的浪费,一种高效且精确的相似文档检索技术是十分必要的。将一篇文本映射为一个低维的向量,然后通过对比不同向量之间的相似度来判断文本是否相似,是目前相似文本检测任务中常用的技术之一,如Simhash算法。但已有的研究往往是为了去除海量网页中的重复网页,未能较好考虑文本表达过程中各个词语的特征信息,所以精度有所欠缺。为了提高相似文本检测的精度,本文对词语权重计算策略以及相似文本检测算法进行了研究,在此基础上,对经典的Simhash算法进行了改进和优化。本文的主要研究工作如下:(1)针对目前基于知识库的中文词语相似度算法使用单一知识库而导致计算结果信息不完备的问题,本文提出一种融合How Net和同义词词林的词语相似度计算方法。在现有的基于How Net信息内容的词语相似度算法和基于同义词词林信息内容的词语相似度算法基础上,根据词语的不同分布情况提出了一种动态融合两个知识库的策略,充分利用了How Net和同义词词林中的体系结构信息来计算词语的相似度。实验表明,与刘群等几个具有代表性的方法相比,本文方法和MC30人工判定值之间的皮尔逊相关系数平均提高了0.112。(2)针对传统的词权算法无法准确表示词语对于文本的重要程度,本文提出了一种基于词语多特征的词语权重计算方法。传统的TF-IDF算法中没有考虑词语本身的特点而仅考虑词语在文本和数据集中出现的频率,本文分析了中文文本编写者的表达习惯和词语中包含的主题语义信息后,提出一种包含词语的长度特征、词性特征、位置特征和标题匹配度的MFTF-IDF(Multiple Features TF-IDF)词权算法。经实际新闻文本分类实验验证,该方法相较于传统TF-IDF提升了3.28%的精确率,说明这种综合考虑词语多特征的算法可以提高文本表征的准确度。(3)针对Simhash在相似文本检测任务表现上查准率较低的不足,本文使用MFTF-IDF词权算法改进了Simhash指纹的生成过程。传统的Simhash在计算特征词权重时仅使用单一简单算法,如布尔权重、TF权重或TF-IDF权重,在生成文本指纹的过程中易丢失文本语义信息。本文使用基于MFTF-IDF改进的Simhash算法来生成文本指纹,将数据集中的文本映射成一个个低维的向量,最后通过判断文本指纹之间的相似性来达到相似文档检测的目的。相似文本检测实验结果表示,改进后的Simhash指纹算法相较于传统的Simhash,平均查准率提高了5.47%,表明该算法可以提高文本指纹的表征能力。
其他文献
长久以来,对物理实体的三维形状分析一直是人们对三维空间进行语义理解的基础并广泛应用于形状匹配与检索、场景分析、智能机器人、AR&VR以及自动驾驶等领域。在计算机中,物体的三维形状表示通常为点云或网格。不同于二维数据,三维数据往往更加复杂,存在无序性、空间排列不规则、密度不均等特点。因而,传统的二维图像处理方法往往难以直接应用于三维数据。三维数据的处理与分析方法通常包含基于底层几何特征的方法与基于数
目的利用生物信息库寻找出能够预测乳腺癌预后的差异表达免疫相关长链非编码RNA(Long non-coding RNA,lncRNA),利用筛选出来的免疫相关lncRNA构建风险模型,运用该模型乳腺癌患者的预后进行预测,根据预测结果分析,寻找合适的预后模型和潜在的治疗靶点。材料与方法从癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中下载乳腺患者癌组织和正常组织的表达
环胍骨架广泛存在于天然产物及药物分子中,该类化合物大多具有优秀的生物活性,如杀虫、抗肿瘤等。环胍类化合物在有机合成中也应用广泛,可以作为手性催化剂或金属配体应用于不对称合成。因此发展高效地合成环胍化合物的新方法一直吸引着化学家们的研究兴趣。我们研究发现,N-Ts氰胺在氟试剂的作用下脱Ts生成的氰胺负离子中间体,是兼具亲核和亲电位点的两性试剂,在合适的反应条件下,若与另一种含有亲核性氮原子的两性试剂
目的探讨经第2骶椎骶髂螺钉(Second sacral alar-iliac,S2AI)固定技术在成人退变性腰椎侧后凸畸形合并骨质疏松症(Osteoporosis,OP)患者矫形术中的疗效、术后随访矫形效果的维持和并发症。为成人退变性腰椎侧后凸畸形的良好手术方案的选择提供参考依据。方法根据纳入和排除标准,收集2016年1月至2020年9月收治于郑州大学第一附属医院骨科的40例成人腰椎侧后凸畸形合并
天然酶作为最有效的生物催化剂之一,具有较高的催化活性和底物特异性,在工业、医学和生物等领域发挥着重要作用。然而天然酶的固有缺陷,例如成本高、稳定性差、储存困难等缺点,严重限制了天然酶的广泛应用。因此,为解决上述问题,开发合适的材料来取代天然酶或者构建合适的方法来保护天然酶是非常有必要的。MOFs是由金属离子和有机配体通过配位作用而形成的多孔材料。它以分子或原子为催化中心,具有高孔隙度、大比表面积、
目的本研究旨在观察n-3多不饱和脂肪酸(Polyunsaturated fatty acids,PUFA)对2型糖尿病(Type 2 diabetes mellitus,T2DM)大鼠空间学习记忆能力的影响,并探讨可能机制。方法70只4周龄雄性Sprague Dawley(SD)大鼠随机分为正常对照组(Normal control,NC)和造模组(Model,Mod)。NC组给予普通饲料,Mod给
研究背景近些年来,肠道微生物组学的迅猛发展已经揭示了人类健康与肠道微生物息息相关,益生菌作为能干预肠道微生物组从而改善人类健康状况的手段之一,也备受关注。乳酸片球菌(Pediococcus acidilactici)是一种可靠的细菌素生产者,广泛用于在食品储存期间的保存和安全保证。此外,乳酸片球菌的益生功能也受到广泛关注,例如可以调节肠道免疫、降低胆固醇和甘油三酯等。尽管其应用前景广阔,但由于不同
芳炔,一种具有高反应活性的中间体,已经成为有机合成中强大的合成子。与传统的芳基亲电试剂不同(卤代芳烃等),芳炔可以按照先后顺序依次与两个组分分开反应,此类三组分反应广泛应用于各种杂环化合物的官能团化和具有生物活性化合物的合成中。氮杂环骨架是许多具有生物活性化合物的构成模块,其中五元含氮杂环和1,4-二取代七元杂环具有重要地位,因此探究这两类化合物的合成是十分有意义的。芳炔具有的高反应活性和高效方便
背景高钾血症是慢性肾脏病患者较为常见的并发症。对于慢性肾脏病的患者,高钾血症的预防与及时有效的治疗十分重要。目前临床上常用于治疗高钾血症的措施包括静脉输液药物、口服聚磺苯乙烯钠及紧急血液透析治疗。但是这些措施各有缺点。环硅酸锆钠是一种非吸收性的硅酸锆,通过在胃肠道内与钾离子结合,并经粪便排出,降低游离钾离子浓度,从而降低血钾水平。同时环硅酸锆钠是一种高选择性阳离子交换剂,其微孔大小和组成,对钾离子
目的:探究加速康复外科(ERAS)应用在剖宫产瘢痕妊娠(CSP)子宫动脉栓塞术(UAE)围术期中对患者情绪及疼痛的影响。方法:选取2019年1月-2020年6月在本院计划生育科就诊的CSP患者100例,均行UAE及宫腔镜下妊娠组织切除治疗,采用随机数字表法分为两组各50例,常规组围术期实施常规护理干预,ERAS组应用ERAS管理方法。应用焦虑自评量表(SAS)、抑郁自评量表(SDS)、数字等级评定