基于变精度粗糙集理论的多属性离散化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hgs19741022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经典粗糙集理论中的一致性水平得到,因此存在缺点。经典粗糙集理论对集合间包含关系的定义过于严格,将大样本的多数包含也视为不一致样本,必然导致信息丢失。变精度粗糙集理论则放宽了包含关系的严格定义,引入了噪音阈值β,当不包含程度低于阈值时才说明某集合包含于另一集合。为了改进原离散方法,本文基于变精度粗糙集理论的包含关系提出不一致率,以此替换原离散化方法的离散停止准则,得到新的离散化算法。实验结果分析证明单属性和多属性相结合的离散化方法符合理论预期,有效避免了隐藏信息的丢失。本文基于变精度粗糙集理论对单属性和多属性相结合的离散化方法提出的改进使得原离散化方法的性能明显提升。基于变精度粗糙集理论虽然能够得到更合理的离散停止准则,但在计算过程中噪音阈值β值是基于经验得到的。如何通过数据集本身训练得到β值是离散化领域中值得研究的方向。
其他文献
现在的电子产品都流行一个概念,就是"3C融合"。在这趋势的引导下,几乎所有的电子产品都实现了功能上的融合。凭借着数据线的连接功能,以及手机自身操作系统的日渐发达,手机越来
<正> 社会在前进,在发展,每时每刻都有新生事物的产生。现在处于信息时代,知识社会、商品社会,全球“信息高速公路”的建成,使全世界的距离大为缩短,坐在家里或办公室里就可
近日,备受关注的企业社会责任亚洲峰会2012(CSR Asia Summit2012)在北京隆重召开,富士施乐作为赞助商参加了此次峰会。会上,富士施乐CSR部门经理渡边女士就富士施乐贯穿于整个
职务与职级并行制度是为解决基层公务员职业发展空间小、工资收入偏低出台的一项人事管理制度,是在原来的职务与级别相结合的工资制度基础上的制度创新。县以下建立职务与职
目的:优选三黄散瘀巴布剂中黄柏的最佳提取工艺。方法:采用单因素试验和L9(34)正交试验法,考察提取溶剂、提取方法、乙醇浓度、乙醇用量、提取次数及提取时间等因素的影响,以
每年的国际食品配料展览会(FIC)都是食品配料企业必须参加的形象展会。很多食品配料行业的中小企业每年都必须投入几十万元用于布展,向客户展示企业的形象、产品,也希望藉展会