【摘 要】
:
在信息爆炸式增长的时代,个性化信息获取需求愈加强烈,如何从庞大的信息库中获取所需要的有价值的个性化信息极其重要,应运而生的信息分类及检索技术需求增加。在文本分类挖掘处理方面,技术应用成了关键问题。在中文的文本处理方面,计算文本相似度是一个很广泛的研究热点,经常应用于信息文本检索、人工智能服务、相似性排查等方面,如何提高文本相似度检测方法的准确性是一个值得深入研究且极具实用价值的问题。目前,解决这类
论文部分内容阅读
在信息爆炸式增长的时代,个性化信息获取需求愈加强烈,如何从庞大的信息库中获取所需要的有价值的个性化信息极其重要,应运而生的信息分类及检索技术需求增加。在文本分类挖掘处理方面,技术应用成了关键问题。在中文的文本处理方面,计算文本相似度是一个很广泛的研究热点,经常应用于信息文本检索、人工智能服务、相似性排查等方面,如何提高文本相似度检测方法的准确性是一个值得深入研究且极具实用价值的问题。目前,解决这类问题有几个很流行的算法:向量空间模型算法(VSM),这类算法没有考虑文本数据中语义相似词语的存在,也无法解决语义相似词语对算法准确性干扰的问题,这样使得文本相似度计算准确性不足;隐性语义索引(LSI)算法,主要使用奇异值分解(SVD)分解文本文件,也不能解决语义相关性的问题;KNN算法是一种非参数的文本分类方法,因其简单、有效的特点被广泛应用于机器学习领域,但是其时间成本及运维效率相对较差;最大词组组合算法能快速有效的进行分词,但对于语义相近、文字差别较大的词组无法做到精确分类,同样无法解决语义相关性的问题。本文提出一个新的解决方案,将词语的语义相似度加入到文本相似度算法中,并对算法复杂度进行分析,提出基于语义的文本相似度新算法,提高算法的准确性。本文深入分析现有的文本相似度相关研究成果,并且在已有成果的基础上加入词语的语义相似度影响。知网是比较优秀的中文语义相似度参考,本文使用传统VSM算法、词组相似度算法与加入语义相似度的文本相似度算法进行比较的方式,数据集选取的是某高校论文,同时为证实理论的准确性又进行了进一步的实验和分析。实验证明,与传统VSM算法相较加入语义相似度的文本相似度算法在验证文本相似中表现出优秀的性能,既可以精准的判断文章的相似,又不会对不相似文章进行误判;与已有最大词语组合算法相较加入语义相似度的文本相似度算法在计算时间上优于最大词语组合算法,并且在计算性能上,也要更稳定于最大词语组合算法。本文提出的新算法相较于传统算法和最大词组组合算法更具有有效性、无差异性、准确性。
其他文献
<正>急性甲状腺毒性肌病(简称急性甲亢肌病)又称急性延髓肌麻痹,是甲亢少见的严重合并症,多伴发于慢性肌病和甲亢危象者。我们曾收治1例不伴慢性肌病的急性甲亢肌病患者,国内
目的探讨S100A4蛋白及ZEB1蛋白表达水平与胃癌侵袭转移及预后的关系。方法选取中国人民解放军白求恩国际和平医院2013年5月至2015年5月接诊的胃癌患者175例,采用HE染色技术对
弗朗西斯·福山,日裔美籍学者,哈佛大学政治学博士,曾任美国国务院思想库政策企划局副局长。1989年弗朗西斯·福山发表了《历史的终结》一文,认为自由民主制度是人类意识形态发展的终点和人类最后一种统治形式,在这篇文章的基础上,福山于1992年发表了《历史的终结及最后之人》,提出了“历史终结论”,这被视为西方取得冷战胜利的宣言,在国内外学界引起较大反响。进入新世纪以来,中国的快速发展引起了世界的广泛关注
江蓠属的龙须菜是1种重要的产琼胶海藻。从2000年在广东汕头南澳岛栽培成功以来,迅速在福建、浙江、山东和辽宁沿海得到发展,成为继海带、紫菜和裙带菜之后又一个新兴的海藻
就语言学习者而言,词汇的学习和掌握对学习的成败至关重要。在此讨论将英语作为第三语言学习的三种水平的白族学生的英语词汇学习策略的调查研究表明:白族学生学习策略使用的
近些年,在烟台市以芝罘区为代表的区域无论是管乐课外教学、吉他、弦乐、民乐的教学都逐步普及开来,在声乐演唱教学成就斐然的同时,小学生课外钢琴教学还面临着其他很多方面
随着当前人们生活理念不断成熟,加上自身经济收入能力进一步增强,如今人们的生活结构也出现了全新变化,在整个日常生活中,人们的生活方式也与以往有着实质性差别。现阶段、参
<正>学体部落是我筑梦的开始,那里有恩师、有榜样,有接地气的指导和帮助,有前瞻先进的思想理念引领,有集国内外智者智慧于一身的杂志导读,有体育人精气神的舞台展示。三年中,
伴随着成像需求的多样化,成像环境的复杂化,单个平台往往需要携带多个成像系统,增加了平台的负重和体积,增大了机械控制和信息融合的难度。因此将多个成像系统在结构和功能上
证券市场信息披露体系日趋成熟,但上市公司在自身利益驱动下,仍会出现虚假信息披露、披露不及时或盈利预测偏差大等现象,因此解决信息披露存在的问题,具有深远的现实意义。