论文部分内容阅读
随着互联网、物联网、传感器等技术的快速发展,在生产和生活中产生了大量的数据,人们希望从这些数据中挖掘到有价值的信息。然而其中很多数据呈现出样本数量庞大、特征维度高的特点,这无疑加大了数据挖掘的难度。针对以上问题,研究者们往往通过特征选择的方法删除数据中无关、冗余的特征信息,从而降低特征维度、噪音干扰、算法复杂度,使模型变得简单且易于理解。特征选择在数据挖掘、人工智能、故障诊断等领域中,已经成为一个研究的热点。传统的特征选择算法存在着不足,或是选择的特征子集在进行分类任务时准确率较低,或是选择的特征子集规模较大。针对这些不足,本文以封装式特征选择模型为基础,结合强化学习理论中通过收益(奖赏)进行自主决策的方式,提出了基于强化学习的特征选择算法。在UCI数据集上与传统特征选择算法进行对比实验,实验结果表明本文算法可以选取较优的特征子集,证明了算法的可行性和有效性。本文主要研究内容包含以下两点:(1)在对现有特征选择方法研究的基础上,针对传统特征选择方法存在的问题,本文将特征选择过程与强化学习训练过程结合起来,提出了一种新的特征选择算法模型。该算法进行特征选择时,强化学习中的智能体(Agent)通过“试错”的方式进行特征子集的训练搜索,根据特征子集的反馈收益即时调整特征子集内特征,最终Agent选取获得最大收益的动作序列作为最优策略,依据最优策略得到特征选择的结果。实验表明,本文算法选取的特征子集较之传统算法在分类准确率上有所提升。(2)通过对比实验,验证了本文提出的基于强化学习的特征选择算法设计的可行性和有效性,但较之传统特征选择方法,在特征降维和分类准确率方面效果提高不大,且算法执行时间较长。针对以上问题本文对算法进行进一步改进,引入信息论和相关性分析理论,将它们作为Agent训练搜索特征子集过程的“经验指导”,即特征子集搜索过程中,优先添加信息熵值较大的特征;并优先删除特征子集中Pearson相关系数较高的一对特征中的一个特征。实验表明,改进算法相比原算法进一步降低了特征维度,提高了分类准确率并缩短了算法执行时间。