论文部分内容阅读
舌诊,因其简单直观、无创伤等特点成为了中医诊断的重要依据之一。我国传统中医认为,舌是人体内各个器官的一面镜子,可以直观地反映出人体的整体状况。然而,中医舌诊的结果容易受到医生的知识水平和临床经验等主观因素的影响,甚至当时的光照、角度等外界因素也会左右医生的判断。这些干扰因素制约了舌诊的交流与发展。20世纪末期,图像处理技术迅猛发展,并推广到了许多领域,这就使舌诊客观化的想法变为可能。在这样的背景下,人们将中医舌诊理论与计算机图像处理技术相结合,开辟出一个新的研究方向--计算机辅助舌诊。计算机辅助舌诊通过图像采集、舌象分割、特征提取和机器学习等步骤,将病人的病理信息客观准确地反映出来,既减少了其他因素的干扰并辅助医师发现病灶,又提高了诊断的准确率,实现了舌诊的客观化、定量化。颜色特征,是联接中医舌诊与图像处理的桥梁:它不仅是舌诊时医生对病人整体状况的首要考量依据,也是图像处理技术中最常使用的信息。前人对舌象分析的颜色特征做了大量的研究,但是都普遍存在一个问题--盲目地选择特征,这就使得特征集中不可避免得含有大量的冗余特征,并且无法精确地揭示出数据的本质,甚至会造成过拟合。另一方面,实际应用中的数据样本往往是偏斜的,即正负样本数目相差很大,这就使得我们在应用传统的机器学习方法时遇到很大的挑战。本文在先前工作的基础上做了以下工作:首先,提出了一类新的度量数据散步趋势的特征—极差,并与先前工作提出的均值、中位数和标准差三类特征融合,生成了一个新的特征集合。然后通过支持向量机特征选择方法对特征集合进行降维,有效地提高了分类的整体效果。第二,采用SMOTE过采样技术将少数类样本数目扩增至样本平衡,解决了实际应用中样本不均衡以及其所带来的问题。最后,在二分类实验的基础上,加入了正常组的样本,将二分类实验扩展到三分类实验,并通过SMOTE技术和新提取的特征进行分类预测,获得了较好的实验结果,为后续的研究打下了基础。