生物医学文献分析系统的设计与实现

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:qiaolei8214122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献是记录、积累、传播和继承生物医学知识的有效手段,是生物医学科研人员获取和交流领域知识的最基本、最重要的途径。随着生物医学科学技术的迅速发展,生物医学文献呈现指数型增长。如何从这些海量生物医学文献中挖掘出潜在的规律和知识是当前生物信息学的热点问题之一。本文基于MedLine数据库、PubMed搜索引擎、网络爬虫技术和数据挖掘算法,设计和实现了一个生物医学文献分析系统,主要包括搜索词关联生物医学文献数据的获取、文献数据预处理、多维统计分析、聚类分析和结果可视化等功能。生物医学文献分析系统具有占用资源少、轻量便捷等优势,能够辅助用户深度挖掘生物医学文献的内在规律,为其提供搜索词所涉领域的关联热词、研究团队、主流期刊、地域热度、研究趋势和文献聚集等信息,帮助用户快速了解科研动态,做出准确的科研决策,从而实现系统的应用价值。主要研究内容包括四个方面:(1)网络爬虫技术。生物医学文献分析系统以PubMed搜索引擎为桥梁连通MedLine数据库,根据文献页面的呈现形式和存储结构,基于XPath路径定位页面及信息,采用深度优先策略爬取搜索词相关联的生物医学文献数据。(2)数据预处理及分析。生物医学文献分析系统的数据预处理及分析部分包含四个模块,即预处理模块、统计模块、模型模块和聚类模块。预处理模块基于英文生物医学文献数据的语法特点和单词特性,采用去除HTML标签、分词、去停用词、拼写校对等方法清洗文献数据。统计模块统计生物医学文献的标题、关键字及摘要的词频,以及作者、期刊和国家地区等信息,揭示搜索词所涉领域的关联热词、研究团队、主流期刊、地域热度和研究趋势等信息。模型模块基于优化的TF-IDF算法计算候选特征词的权重,从而筛选出代表性特征词构建词频矩阵。聚类模块基于词频矩阵,以文献向量夹角余弦值为文献相似度构建相似度矩阵,通过Ward Method方法聚类文献。(3)TF-IDF算法优化。传统TF-IDF算法容易受忽略单词位置因素和类间分布情况带来的影响。本文从TF因子和IDF因子两方面入手优化TF-IDF算法以提高算法性能。在TF因子中融入位置贡献度和词性贡献度,在考量特征词的文献位置重要程度的同时融合了单词的词性。IDF因子以特征词在不同类间的概率为出发点,引入维度因子,将特征词在本类及其他类的概率作为计算依据,一定程度上解决了传统TF-IDF算法重点关注词频忽视类间分布的弊端,提高了算法在处理高维度数据时的稳定度和准确度。(4)结果可视化。生物医学文献分析系统以科学、美观、简约为开发原则,利用Python库tkinter、Pyecharts、Matplotlib等完成界面和结果展示模块的开发。可视化呈现形式包括词云图,柱状图、饼状图、树状结构图等,有利于用户直观获取结果。
其他文献
高炉是目前工业上最大的高温密闭反应容器,其冶炼过程具有非线性、强耦合性、时滞性等特点,能耗占钢铁企业总能耗近七成,故为实现高炉的节能低耗和智能自动化发展,对高炉冶炼
叶片作为植物的重要组成部分,其外形参数是植物学的重要研究内容。叶片外形参数不仅是区分植物种类的重要依据之一,而且是衡量植物生长状况、预估产量形势、管理作物栽培、预
国际投资争端解决中心(International Centre for Settlement of Investment Dispute,以下简称“ICSID”)是依据《解决国家与他国国民间投资争端公约》(以下简称《华盛顿公约
同时定位和建图(Simultaneous Localization and Mapping,SLAM)技术因其体积小、高效低耗、精度高及便携性等特点在工业民用领域有着越来越广泛的应用,同时也有着广泛的应用
数字网络媒体时代的到来,使文学艺术领域的创作更多体现数字化、混合剪辑等特点。伴随着短视频自媒体平台的涌现,戏仿创作再次迎来热潮。此类作品往往通过戏仿一部或多部在先
随着智能手机、智能音箱等智慧终端在生活中的不断普及,人们对这些设备的依赖逐步增加,智慧终端也发挥了越来越重要的作用。与此同时,人们也面临着数据爆炸的问题。据估计,到
近代中国面临着极大的挑战,国土被列强侵占,国家主权逐渐沦丧,中华民族陷入生死存亡的严峻境地。为了寻求拯救国家时局之道路,仁人志士不断反思传统文化,总结探索利于时代发
虽然军舰通常享有主权豁免,只能由船旗国对其进行排他性管辖,但是,当军舰沉没于其他国家的管辖海域后,能否继续由船旗国对其进行排他性的管辖却存在争议。本文在水下文化遗产
随着无线通信、移动互联网及无线终端技术的发展,无线接入网的移动流量爆炸增长,并且催生出各种各样的业务需求,如无人驾驶、远程医疗等。面对多样化差异化的业务需求,在5G网
随着我国经济持续高速发展,产业升级、技术进步对劳动者的要求越来越高,国家和社会对职业培训的投入不断增加,产生体量庞大的职业培训市场需求,各式各样的职业培训机构应运而