【摘 要】
:
生物医学研究是二十一世纪最受关注的研究领域之一,尤其随着生物医学研究在分子层面的展开,人类基因组计划的实施完成,产生了海量的生物医学数据,并形成了数以百计的生物医学
论文部分内容阅读
生物医学研究是二十一世纪最受关注的研究领域之一,尤其随着生物医学研究在分子层面的展开,人类基因组计划的实施完成,产生了海量的生物医学数据,并形成了数以百计的生物医学数据库。这些医学数据后面隐藏着大量的生物医学知识,对研究人员和医疗工作者来说,如何方便、快捷、准确的查询与检索这些知识,并从这些繁杂的数据中找到有用的信息对他们的工作有着至关重要的作用。本文从当前医学研究人员和医疗工作者面临的实际问题出发,将多文档自动文摘技术应用到生物医学领域,重点研究了生物医学多文档自动文摘系统的设计与实现。首先,根据PubMed上查询结果的特点,利用爬虫程序将用户在PubMed上的查询结果保存到本机计算机中,并针对原始原料的特点,提出语料库建立的方法,建立语料库。其次,在建立语料库的基础上,为了规范数据格式,对语料库进行预处理,重点研究对语料的词性标注和命名实体识别,并最终选取标记效果更好、速度更快的双向推理算法,最简优先策略,确保了对语料词的准确标记的同时,克服了传统算法的缺陷。最后,对规范化的数据进行主题识别,主题识别是本文的关键,本文在根据医学文献的数据量大的特点,采用K-means聚类算法进行主题聚类的同时,对传统的算法进行改进,使其在聚类的同时可以动态的增加类别,克服了传统K-means聚类算法初始聚类数固定,难发现潜在主题的缺点。并首次提出交替增强策略,将其应用于文摘句的抽取,最终对抽取的文摘句排序,生成文摘,并对生产文摘采用两种内部评测方法评测,取得了很好的效果。
其他文献
科技文献检索是科研工作者不可或缺的一项重要工作。随着大量以Deep Web形式存在的数字资源不断涌现,科研工作者要获得全面、满意的文献信息,需要将同一查询重复提交到多个Deep
随着计算机技术与通信技术的飞速发展,网络上的多媒体数据成几何级数增长,歌曲是众多数据的一种,为了快速有效的组织这些数据,就需要有高效的方法对歌曲风格与歌手音质进行自
Mobile Ad hoc networks are collections of wireless mobile hosts forming a temporary, self-organized network without any existing wire line infrastructure. In su
随着我国空间信息技术的进步,遥感光学卫星在空间分标率、光谱成像、辐射分辨率等各个方面都取得了长足的进步。随着我国对高分辨率卫星、微纳卫星、皮纳卫星的研发,“蜂群模式”、“星座组网”等遥感模型算法的逐渐完善,如何在提高成像质量和追求卫星遥感器的最佳占空比和轻小型化一直是相关研究人员们钻研的课题。然而受现实情况的影响,单纯为了相应研究进行卫星发射和数据传输在研究成本和效率上都是不可取的。那么利用实验室
目前针对特定领域进行领域建模已成为一种趋势,相关建模方法、建模语言以及建模工具的快速定制成为研究的重点和难点。本文基于对传统多视图建模方法分析研究的基础上,给出了
随着计算机图形学和计算机视觉的快速发展,三维重建及相关的深度图获取技术越来越受到重视,近些年来不仅在科研而且在应用层面中都有巨大进步。本文针对目前深度获取领域的现
立体视觉作为计算机视觉中的一个重要分支,一直是计算机视觉研究的重点和热点之一。立体匹配是立体视觉中的一个难题,是当前制约立体视觉发展的瓶颈问题。由于外极线约束是立
近年来,我国旅游业发展迅速,旅游已成为国民经济发展中的一个重要因素,特别是对于像贵州省这类旅游资源丰富、少数民族聚居的地域。随着旅游资源不断丰富,人们对于旅游服务和旅游
联盟环境是由不同的相互信任的域共同构成的资源共享平台。在联盟环境中,每个域都设置有认证服务器,一方面对本域资源的安全访问进行管理,另一方面为用户提供认证服务。由于