后缀树相关论文
在大数据背景下,互联网和物联网快速兴起,数据规模迅速扩大,数据呈现爆炸性增长趋势,机械大数据也随之兴起。机械大数据不仅具有大......
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的......
目前基础医学研究与临床治疗之间不能建立有效关联,基础医学最新的研究成果不能快速应用到临床实践中,由此,国际医学领域提出了转......
随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,......
生物信息学是近年来新兴的一门综合性的交叉学科。它综合利用计算机科学、信息科学和数理统计学,对大量的生物序列进行存储、检索、......
随着因特网的不断普及,流数据处理逐渐受到人们的关注。相对于传统的静态数据,流数据具有高度的流动性,对实时更新的要求较高。本......
生物信息学是20世纪80年代末,随着人类基因组计划的不断发展,基因序列和蛋白质数据的急速增加,以及信息理论和计算机技术的不断发展而......
自动问答技术是自然语言处理领域中一个热门研究方向,它综合运用了各种自然语言处理技术,目前国内外有很多的科研机构都参与了该技术......
生物信息学是利用现代计算技术来处理和研究生物数据的一门新型交叉学科。其中,序列比对是生物信息学中最基本的信息处理方法,对于......
重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以......
目前,大多数搜索引擎以线性列表的形式为用户返回搜索结果,而搜索结果往往数以万计,这就使得用户可能需要花费很长时间才能找到自己需......
生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串......
近几年来,随着生物信息学迅速发展,产生了大量的生物数据,对这些生物数据的研究和分析对于指导生命科学研究、揭示生命起源和进化......
随着互联网的高速发展,快餐文化越来越普及。互联网上大量的信息越来越多的以短文本的形式出现,搜索引擎的返回结果和微博等都是这......
随着计算机科学的不断发展,信息数据量呈爆炸性增长,给数据处理工作带来了一定的挑战,用户的查询也变的越来越复杂。由于需要处理......
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿......
转录因子结合位点预测问题,即在DNA序列中发现允许出现变异的motif的问题,不论对于分子生物学还是对于计算生物学,都是一项非常重......
21世纪是一个高度信息化的社会。随着社会的快速发展,计算机技术的广泛应用,信息在人们生活中的意义越来越重要,并呈现出海量化、多样......
随着互联网的快速发展,互联网上的信息量表现出资源动态变化、资源形式多样化、互联网结构复杂化等新的特点,传统的搜索技术显得力不......
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现......
当前全球论文产量每5年翻一番。学术搜索引擎已经成为科研人员查找论文不可或缺的工具。目前业界最知名的学术搜索引擎主要有百度......
多序列比对是两个以上DNA序列、RNA序列或蛋白质序列的比对。多序列比对是基因组分析和蛋白质组分析的最常用手段之一,能有效发掘......
本文研究了Top-k文档检索问题,即对给定的文档集D={d1,d2…,dn},对D构建索引,通过相关的打分函数给每个文档进行打分,使得对任意给......
随着互联网技术的飞速发展和网络数据库资源的日益丰富,海量的信息以及巨大的搜索功能,让论文抄袭变得轻而易举。针对抄袭行为越来越......
Tandem repeat在基因组成和进化中起到非常重要的作用,查找和分析Tandem repeat已经成为当前生物信息学的一个前沿领域和研究焦点.......
期刊
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密......
在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于......
该论文分析维吾尔语的词法特点,选择适合维吾尔文文本聚类的特征,构造可扩展后缀树.选择基类,合并基类,把维吾尔文网页按相似度分......
研究了大型音乐哼唱检索系统中采用的近似匹配算法的性能问题,为了支持对于多种近似匹配算法的比较研究,开发了一个独立于算法的测......
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核......
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型......
提出了一种基于后缀树自动机的模式匹配算法,匹配中应用后缀启发机制进行启发跳跃,忽略不必要的比较。实验表明,该方法与传统模式......
针对目前程序动态度量研究中实时性与准确性较差的问题,提出了一种利用程序行为特征进行度量的方法。通过筛选程序运行过程中产生......
通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码......
分析了后缀树在一维和二维字符串处理方面的优势,以后缀树为索引,将后缀树和最低公共祖先问题相结合,提出了一个在仅考虑平移变换......
本文利用后缀树向量空间模型(VSM),为每篇文献建立相应的基于内容的向量模型,通过夹角余弦得出文献之间的相似度,再结合中国医学科学......
元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,......
后缀树是一种非常重要的数据结构,它在与字符串处理相关的各种领域里有着非常广泛的应用.构造后缀树是应用后缀树解决问题的前提和......
非编码区重复序列分析在基因组研究中起着重要作用,其基础就是在非编码DNA序列中识别和定位所有的重复结构。重复序列识别问题在计......
由于当前的肚于DHT的P2P系统在语者搜索方面都有很大的限制,因此建立一种恰当的既具有语言能力又有伸缩性的语言覆盖P2P网络是一种......
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算......
针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀......
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM),并在此模型之上实现了文本分类系统.对比基于词的......
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用.本文提出......
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨......
为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的......
本文通过对基于两棵树中的公共子树查找问题在有根、带标记、有序树中的主要算法及相关历史的回顾,结合算法思想将公共子树查找问......