领域知识制导的数据挖掘技术及其在中药提取中的应用

来源 :南京航空航天大学 | 被引量 : 10次 | 上传用户:archer_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,DM)或者知识发现(Knowledge Discovery in Database,KDD)技术,是从大量数据中发现有价值的和隐藏的知识的过程,它能够解决“数据爆炸但知识贫乏”这个现实问题。在数据挖掘的整个过程中,领域知识起到非常重要的作用,它能够提高数据挖掘的效率和挖掘质量。将领域知识融入到数据挖掘整个过程之中是一个重要但还没有很好解决的课题。针对这个课题,本文做了如下几个方面的研究工作:1、论述了领域知识在每个数据挖掘阶段中所起到的作用,以及挖掘系统引入领域知识的方式;分析了目前领域知识制导的数据挖掘技术的研究现状。2、研究和实现了一个支持数据挖掘的知识库系统,用于存储和管理制导数据挖掘过程中的领域知识。总结出用于制导数据挖掘过程的七类领域知识,并采用两级知识组织方式对领域知识进行组织;实现了知识编辑、知识检索和知识选择等知识管理功能,并针对各种类型领域知识设计了知识输入模型和显示模型,方便用户对知识进行输入和查阅;在知识校验时,重点考虑了规则的矛盾性和冗余性校验,确保了知识库的一致性。该知识库系统是建立在关系型数据库之上,因此它能够利用成熟的数据库管理技术进行知识管理。3、研究了基于领域知识的数据预处理技术。分析了用于数据预处理的领域知识的分类,以及基于领域知识的数据预处理系统的基本结构;分别讨论了基于领域知识的不完整数据、错误数据以及重复数据等数据清洗技术;研究了基于领域知识的数据离散化和数据概化两种数据转换技术。4、研究了领域知识制导的数据挖掘(指知识发现的一个关键环节)技术。提出了一种基于算法适用知识的挖掘算法选择系统,该系统简单,易于实现,而且允许挖掘算法动态添加;对挖掘算法的参数选择方法进行了讨论,分析了领域知识在各种参数选择方法中的作用;讨论了基于领域知识的查询优化技术,对各种查询优化方法进行了总结;讨论了元规则制导的数据挖掘技术,针对当前元规则的实例方法的不足,提出了一种新的元规则的实例方法。该方法能够大大削减元规则的候选实例集。5、研究了领域知识制导的知识评价技术。介绍了发现模式兴趣度的相关概念及评价指标,讨论了常用的规则客观兴趣度评价指标;在讨论规则的主观兴趣度时,提出了一种规则意外性的评价方法,该方法考虑了意外规则的三种形式和用户领域知识的不确定性,给出了意外性的度量函数及其实现算法;采用规则模板表示用户关于发现规则的可用方面的领域知识,在此基础上,提出了一种规则可用性的评价方法。6、实现了一个数据挖掘原型系统Miner2005。该系统集成了知识库管理、数据源选择、数据预处理、数据挖掘和知识评价等功能,且具有领域知识制导、较强的适应性和通用性等特色。7、研究了数据挖掘技术在优化中药提取工艺中的应用。中药提取是中药制造中非常重要的环节。首先讨论了中药提取过程中存在的主要问题——提取工艺参数的选择;然后应用数据挖掘技术,从中药提取工艺的历史数据中,挖掘出提取参数同中药性征描述之间的关系。挖掘出的知识可以指导工艺人员在确定某个新药的提取工艺时,科学地选取正交试验的各因素水平变化范围,进而保证正交试验得出可靠的优化结果。
其他文献
<正>安塞油田(长庆油田第一采油厂)隶属于中国石油天然气股份有限公司长庆油田分公司,管理着我国陆上最早开发的特低渗亿吨级整装油田。安塞油田位于鄂尔多斯盆地中部,横跨陕
业务天生就具有项目式特点的企业,如工程公司、设计院、科研院所、IT服务类企业,在当今的经济社会里占有很高的比例和重要的地位。同时,由于竞争的加剧,也使得很多传统业务形式的
使用Logistic方程、直线方程、对数方程、多项式方程、乘幂式方程和指数式方程6种理论生长方程拟合不同立地条件下柞树树高生长过程,从中选择最优的树高生长方程。研究结果显
企业简介中航工业郑飞(简称郑飞)隶属于中国航空工业集团公司,是我国航空武器悬挂发射系统和地面综合保障系统设计、研发、制造的骨干企业。十年磨一剑,经营规模年均增长53%,利润年
通过分析我国电子竞技产业现状,发现随着网络迅速发展,电子竞技产业水涨船高,同时带动电子商务、直播平台等周边产业迅速发展。但产业本身仍然存在管理体制混乱、社会接受度
科学发展观既是重大战略思想,又是发展的科学世界观和方法论,具有全面、根本和长远的指导意义。企业只有不断提高运用科学发展观的水平,把学习实践活动常态化,才能为科学发展
弯道超越是赛车运动中的一个常见用语,意思是指车手利用弯道超越对手。弯道是一个风险和机遇同样凸显的特殊地带,而在弯道实现超越,既需要精准的把握,更需要勇气和决心。利用
企业要想长期生存与发展,必须根据市场的变化作出快速响应,因此,企业的政策乃至组织结构应该进行相应调整。然而,对政策及组织结构的频繁调整,会导致企业员工包括许多管理人员难于
自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境确定其词义。它属于自然语言处理的底层研究,对机器翻译、信息检索、信息抽取等均具有直接影响。