基于聚类语言模型的生物文献检索技术研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:c170910613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率
其他文献
“在路上和我唱这一首歌,如果我有方向,那就是远方,钢铁是怎样炼成,流浪不靠坚强,如果我有枪,早就上了镗,如果能得到玫瑰,我只留下芳香”。六月天空,時而晴朗,时而阴云密布,在这阴晴不定的天气中,走在大街上,耳畔传来了这首十分小众的歌,不知道演唱者的名字,不知道是谁创作,只知道这首歌叫《在路上》,在路上,为了远方,为了曾经不甘平凡的自己。  汽车驶过乡间平坦宽阔的水泥路,因為长久不下雨,路面卷起了一阵
本文首先讨论语义角色的三种精细程度不一的分类层级,介绍它们各自在语言信息处理系统中的有关应用。接着,分别介绍三种为语言信息处理服务的语义资源对于语义角色的不同处理:(i)
随着近年SPA风的方兴未艾,以及国外星级酒店品牌的大举进驻,SPA已完全成为时尚和品位的代表,为越来越多潮流人士所熟知和亲近。作为SPA的典型代表,这些年来东南亚SPA吸引着众多SP