论文部分内容阅读
生物医学文献是记录、积累、传播和继承生物医学知识的有效手段,是生物医学科研人员获取和交流领域知识的最基本、最重要的途径。随着生物医学科学技术的迅速发展,生物医学文献呈现指数型增长。如何从这些海量生物医学文献中挖掘出潜在的规律和知识是当前生物信息学的热点问题之一。本文基于MedLine数据库、PubMed搜索引擎、网络爬虫技术和数据挖掘算法,设计和实现了一个生物医学文献分析系统,主要包括搜索词关联生物医学文献数据的获取、文献数据预处理、多维统计分析、聚类分析和结果可视化等功能。生物医学文献分析系统具有占用资源少、轻量便捷等优势,能够辅助用户深度挖掘生物医学文献的内在规律,为其提供搜索词所涉领域的关联热词、研究团队、主流期刊、地域热度、研究趋势和文献聚集等信息,帮助用户快速了解科研动态,做出准确的科研决策,从而实现系统的应用价值。主要研究内容包括四个方面:(1)网络爬虫技术。生物医学文献分析系统以PubMed搜索引擎为桥梁连通MedLine数据库,根据文献页面的呈现形式和存储结构,基于XPath路径定位页面及信息,采用深度优先策略爬取搜索词相关联的生物医学文献数据。(2)数据预处理及分析。生物医学文献分析系统的数据预处理及分析部分包含四个模块,即预处理模块、统计模块、模型模块和聚类模块。预处理模块基于英文生物医学文献数据的语法特点和单词特性,采用去除HTML标签、分词、去停用词、拼写校对等方法清洗文献数据。统计模块统计生物医学文献的标题、关键字及摘要的词频,以及作者、期刊和国家地区等信息,揭示搜索词所涉领域的关联热词、研究团队、主流期刊、地域热度和研究趋势等信息。模型模块基于优化的TF-IDF算法计算候选特征词的权重,从而筛选出代表性特征词构建词频矩阵。聚类模块基于词频矩阵,以文献向量夹角余弦值为文献相似度构建相似度矩阵,通过Ward Method方法聚类文献。(3)TF-IDF算法优化。传统TF-IDF算法容易受忽略单词位置因素和类间分布情况带来的影响。本文从TF因子和IDF因子两方面入手优化TF-IDF算法以提高算法性能。在TF因子中融入位置贡献度和词性贡献度,在考量特征词的文献位置重要程度的同时融合了单词的词性。IDF因子以特征词在不同类间的概率为出发点,引入维度因子,将特征词在本类及其他类的概率作为计算依据,一定程度上解决了传统TF-IDF算法重点关注词频忽视类间分布的弊端,提高了算法在处理高维度数据时的稳定度和准确度。(4)结果可视化。生物医学文献分析系统以科学、美观、简约为开发原则,利用Python库tkinter、Pyecharts、Matplotlib等完成界面和结果展示模块的开发。可视化呈现形式包括词云图,柱状图、饼状图、树状结构图等,有利于用户直观获取结果。