论文部分内容阅读
数据挖掘(Data Mining,DM)或者知识发现(Knowledge Discovery in Database,KDD)技术,是从大量数据中发现有价值的和隐藏的知识的过程,它能够解决“数据爆炸但知识贫乏”这个现实问题。在数据挖掘的整个过程中,领域知识起到非常重要的作用,它能够提高数据挖掘的效率和挖掘质量。将领域知识融入到数据挖掘整个过程之中是一个重要但还没有很好解决的课题。针对这个课题,本文做了如下几个方面的研究工作:1、论述了领域知识在每个数据挖掘阶段中所起到的作用,以及挖掘系统引入领域知识的方式;分析了目前领域知识制导的数据挖掘技术的研究现状。2、研究和实现了一个支持数据挖掘的知识库系统,用于存储和管理制导数据挖掘过程中的领域知识。总结出用于制导数据挖掘过程的七类领域知识,并采用两级知识组织方式对领域知识进行组织;实现了知识编辑、知识检索和知识选择等知识管理功能,并针对各种类型领域知识设计了知识输入模型和显示模型,方便用户对知识进行输入和查阅;在知识校验时,重点考虑了规则的矛盾性和冗余性校验,确保了知识库的一致性。该知识库系统是建立在关系型数据库之上,因此它能够利用成熟的数据库管理技术进行知识管理。3、研究了基于领域知识的数据预处理技术。分析了用于数据预处理的领域知识的分类,以及基于领域知识的数据预处理系统的基本结构;分别讨论了基于领域知识的不完整数据、错误数据以及重复数据等数据清洗技术;研究了基于领域知识的数据离散化和数据概化两种数据转换技术。4、研究了领域知识制导的数据挖掘(指知识发现的一个关键环节)技术。提出了一种基于算法适用知识的挖掘算法选择系统,该系统简单,易于实现,而且允许挖掘算法动态添加;对挖掘算法的参数选择方法进行了讨论,分析了领域知识在各种参数选择方法中的作用;讨论了基于领域知识的查询优化技术,对各种查询优化方法进行了总结;讨论了元规则制导的数据挖掘技术,针对当前元规则的实例方法的不足,提出了一种新的元规则的实例方法。该方法能够大大削减元规则的候选实例集。5、研究了领域知识制导的知识评价技术。介绍了发现模式兴趣度的相关概念及评价指标,讨论了常用的规则客观兴趣度评价指标;在讨论规则的主观兴趣度时,提出了一种规则意外性的评价方法,该方法考虑了意外规则的三种形式和用户领域知识的不确定性,给出了意外性的度量函数及其实现算法;采用规则模板表示用户关于发现规则的可用方面的领域知识,在此基础上,提出了一种规则可用性的评价方法。6、实现了一个数据挖掘原型系统Miner2005。该系统集成了知识库管理、数据源选择、数据预处理、数据挖掘和知识评价等功能,且具有领域知识制导、较强的适应性和通用性等特色。7、研究了数据挖掘技术在优化中药提取工艺中的应用。中药提取是中药制造中非常重要的环节。首先讨论了中药提取过程中存在的主要问题——提取工艺参数的选择;然后应用数据挖掘技术,从中药提取工艺的历史数据中,挖掘出提取参数同中药性征描述之间的关系。挖掘出的知识可以指导工艺人员在确定某个新药的提取工艺时,科学地选取正交试验的各因素水平变化范围,进而保证正交试验得出可靠的优化结果。