论文部分内容阅读
中医药学是中国传统文化的重要组成部分和人类智慧的结晶,其在人类历史尤其是古代人们与疾病抗争中发挥了重要的作用。中药方剂是中医药学的一门重要学科,其配伍规律有着重要的意义。中医药经过几千年的发展积累了丰富的资料和大量的经典书籍,面对如此海量的数据,普通的人工处理方法已经难以满足人们对中医药理论研究的需求。因此,对中医药的信息化研究已经迫在眉睫。本文主要通过数据挖掘技术对中药方剂进行研究,论文主要工作如下:1)提出一种基于药物顺序贡献度的方法来发现方剂中的核心药物,此算法可以挖掘出频次方法中忽略的一些低频药物。2)定义药物距离的概念,并结合标准点式互信息得到一个评价药物关联程度的指标DPMI,在DPMI的基础上提出一种类似Apriori的药物组合挖掘算法,此算法挖掘出的药物组合既有经常使用的传统药对,也有桑白皮、茯苓和地骨皮等一些有效的药物组合。3)引入兴趣度的概念,把支持度和兴趣度结合起来,提出了一种基于兴趣度的FP-Growth算法对方剂进行挖掘,此算法无论是在降低频繁项集规模,还是在算法时间效率上都取得很好的效果。4)使用LDA模型对方剂进行挖掘,根据LDA模型药物主题下的药物分布获得药物的聚类,并基于方剂的主题分布,对方剂进行层次聚类。由实验结果可知,基于主题的LDA模型对肺痿方剂的药物和方剂聚类均有很好的效果。