论文部分内容阅读
大量的生物文本为生物医学研究提供了丰富的资源。但由于文本数量巨大,无法通过人工处理来获取信息。文本挖掘能从现有的文献中自动地挖掘感兴趣的信息。借助于文本挖掘,可以从文献数据库检索需要的生物医学文本;这些非结构化的文本包含了大量的研究成果和实验数据,文本挖掘可以找出其中蕴含的重要信息和知识;在所发现的信息的基础上,研究人员可以进一步生成假设、进行推断和预测、指导实验和更深入的研究。癌症已经成为影响人类健康的主要恶性疾病之一,对癌症的预防、诊断和治疗是一个重要的研究热点。以文本形式存在的大量癌症相关的文献和实验数据为生物医学研究提供了宝贵的资料。许多研究者借助于文本挖掘在处理文本数据方面的优势,将癌症研究和文本挖掘相结合,使用文本挖掘技术发现新的知识,以促进生物医学的深入研究。本文综述了文本挖掘的各项子任务、一般处理流程、常用数据集和工具,介绍了目前文本挖掘在癌症中的应用研究,具体包括:1)介绍了文本挖掘的相关概念、各项子任务以及处理流程;2)细述了一些常用的文本挖掘工具和语料,分析比较了这些工具的优缺点和适用领域;3)分析总结了基于文本挖掘的癌症系统生物学研究常规流程;4)指出了文本挖掘存在的不足,面临的挑战,并针对性地提出了解决思路以供研究者参考。要从这些海量数据中挖掘信息,找出文本中包含的生物词汇是关键。命名实体识别的目的是从文本中识别出指定类型的实体名字,如基因、蛋白等。命名体识别是进一步挖掘信息的基础。从计算建模的角度来看,生物命名体识别可以看成是一个序列分割问题,得到了广泛的研究。然而,由于生物词汇在词汇构造、语法、词形、语义、上下文等多方面均有特殊性,因此,很多通用的命名体识别系统在识别生物词汇时表现不佳。在机器学习的方法中,支持向量机(Support Vector Machine,SVM)在解决小规模的、非线性的、高维的问题时表现较好。SVM在关系提取、关系预测和模式识别等方面有着大量的应用。机器学习的另一种方法条件随机场(Conditional RandomField,CRF)是为了解决最大熵马尔可夫模型中存在的标注偏置问题而引入的,是一种连续的优化最大熵模型。CRF擅长于解决序列标记问题。然而,在实际应用中,SVM和CRF具有很多不足和限制条件。SVM最初只适用于二分类问题而CRF可以用于多分类问题;虽然CRF通常需要较多的计算时间和空间,但很适用于解决序列数据的标记问题,具有较高的稳定性。通过分析发现,SVM和CRF具有一定的互补性,结合二者能相互促进,获得更好的结果。本文将生物命名体识别视为一个包含多个步骤的任务。首选确定候选的单词是否为一个生物单词;由于这个过程是一个二分类问题,因此可以使用SVM来很好地完成。如果判断的结果是一个生物单词,则再使用CRF来确定这个单词属于哪种类别。然后将SVM和CRF的结果进行合并,最后,利用一系列的算法进行修正。具体包括:1)根据生物单词的特性,使用所提出的2条规则,找出由于上下文的不同而造成不一致;2)提出了1条规则用于保证找出的词汇包含尽可能多的生物单词,并在此基础上提出了词汇长度最大化算法,以确保得到最完整的生物词汇;3)针对SVM和CRF结合后可能出现的结果不一致现象,提出了最大双向概率的方法以分析结果。双向概率包括了向前概率和向后概率两部分。向前概率给出了在前一个状态的基础上向前输出的各种情况的概率;向后概率给出了在后一个状态的基础上向后输出的各种情况的概率。本文取二者结合的最大值所对应的状态作为结果。本文在GENIA数据集和JNLPBA04数据集上分别进行了测试。多个评价指标均表明,结合SVM和CRF可以获得更好的效果。本文所提方法的基本思想是充分发挥CRF模型的稳定性并利用SVM长于二分类问题以改进CRF的效果。然而,由于SVM和CRF是两种不同的方法,简单将其组合起来使用可能会造成标记结果的不一致性。通过修正之后,可以改善该问题,从而在保证识别稳定性的前提下提高了识别效果。随着对生物问题研究的深入,人们逐渐认识到,复杂的生物功能和生命现象,是各种生物基本组成单位之间复杂相互作用的结果,不能简单地归结为生物分子个体的结构和功能。深入研究各种生物分子的相互作用网络从而理解生命功能是如何通过各种生物分子的相互作用实现的,是现代生物学的一个主要内容。强化学习方法是一种机器学习的方法。在强化学习的框架下构建作用网络,具有多个优势:1)作为一个复杂的疾病,癌症的生物分子作用网络是无标度的。使用强化学习的方法,agent反复尝试作用结对交互,奖赏和回报决定了哪些交互被强化,网络结构作为agent学习行为的动态性的结果出现。网络本身所具备的无标度特性会被保留。2)生物问题一个特点是具有未知性。癌症作为一种系统的、复杂的疾病,其中的一些机制还未被人们所了解。强化学习提出了一个未知随机环境中学习最佳行为的问题。使用强化学习的方法,保证网络收敛到一个最佳的稳定状态。3)使用具有开放性的强化学习方法,在建立网络的过程中无缝地与生物知识和生物数据结合。来自多个源的生物数据可以被用于构建网络,各种数据互为利用、取长补短,因此所建立的网络具有更高的可信度。使用强化学习框架,强化生物事实,而非随机构建网络,确保网络符合生物复杂网络的基本特性。在作用网络的环境下,如果单纯考量两个生物实体的单个作用关系而不考虑其他生物实体的影响,是不适合的。本文给出了一个综合影响的概念,用以衡量节点的交互的上下文环境中和网络环境下的相互影响力。综合影响包括了两个生物实体之间直接相互作用而产生的直接影响以及通过其他生物实体间接发生的间接影响。分析表明,综合影响更适合作用网络的环境。本文认为,综合影响越大,两个生物实体之间的相互作用就越强,该作用出现的概率也越高。基于生物网络的非随机性,本文提出了基于综合影响的网络熵的概念和相关计算方法来衡量网络信息流分布不规则性,以分析网络演化过程中的稳定情况。由于最终形成的作用网络并非随机网络而是具有稳定的拓扑结构,因此,所建立的作用网络的网络熵越小越好。本文采纳了强化学习的思想,在行动者-评论家算法框架下,提出了一种构建相互作用网络的算法。该算法以节点表示生物分子,边表示生物分子之间的作用。在网络演化的过程中,一个节点选择连接网络中的其他节点,代表一个生物分子选择网络中其他候选生物分子与之交互。每个生物分子在不同阶段都有不同的决策,并得到对应的网络熵。算法以当前网络状态下所有节点的平均奖赏作为判断条件,反复进行选择,不断迭代,最终演化形成一个最佳的网络。该网络是作为学习行为动态性的结果出现的。前列腺癌是最主要的高发性恶性肿瘤之一,也始终是生物研究者的关注热点。本文在PubMed的文本数据集上,利用所提出的方法,建立了一个前列腺癌的蛋白质相互作用网络,结果显示,本文方法所得到的效果较好。网络拓扑结构分析的结果也表明,本文方法所建立的网络的节点度分布符合无标度特性。最后,在本文主要方法的基础上,开发了一个生物文本挖掘系统。该系统包含文本检索、大规模文本自动下载、生物词汇识别、基于文本数据的生物相互作用网络构建以及网络可视化等主要功能。