论文部分内容阅读
数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。它是一种知识发现的过程,主要基于统计学、人工职能、神经元网络和机器学习等技术。数据挖掘通过高度自动化的数据分析,做出归纳推理,从中挖掘出潜在的模式,对未来的情况进行预测,以帮助决策者评估风险、做出正确的决策。本论文围绕中国移动某分公司数据仓库基础上的离网分析数据挖掘专题展开研究开发工作,主要工作包括:本文介绍了数据挖掘的基本概念,数据挖掘技术的发展过程和在不同领域中的应用现状。根据中国移动公司的现有经营分析系统规范,在现有客户行为主题、竞争对手主题、营销活动主题、收入主题、客户服务主题等各数据仓库主题分析的数据基础上,分析总结了数据挖掘获取数据的数据源信息主要来自于移动的数据仓库系统。这样可以充分利用移动公司现有资源,加快项目的开发进程。在需求分析过程中,介绍了客户对业务需求的要求和需求获取的过程,并对客户自身在项目中的需求给予介绍,对不同干系人的需求分析和我们在项目实施中的对策。在业务上如何获取客户帮助,更快的完成业务分析和确认。在数据挖掘的功能、架构和软件划分上,充分利用系统工程的概念和方法,在系统架构设计上完全满足客户可用性、可靠性、可维护性等各方面的需求,并结合现有系统架构,给出合理的系统体系架构和数据流图。根据客户关注的要点信息和现有经营分析架构,给出C/S结构的系统应用架构,并对实际应用中的硬件结构给予介绍。在移动现有大量数据基础上,结合数据仓库中的数据,本文介绍了数据挖掘模型的建模过程,模型验证过程和使用后模型修改的建议。根据移动客户由于竞争原因经常变更产品信息的现状,修改对应数据建模方法,整合出一套高可用性的建模方法。对数据挖掘每日调度处理过程和数据解析处理方法给出了具体详细的介绍,并对实际使用的数据挖掘决策树算法进行了关键介绍。根据设计的模块结构,完成系统部署和客户数据挖掘模型的创建验证和使用,使生成的数据挖掘模型能够满足离网预警分析的需要。在程序质量保证上介绍了对程序的圈时间复杂度的要求。通过日构建的介绍,给出了程序自动编译和发布的过程,并详细介绍了测试的步骤和流程,对缺陷的级别定义和对测试缺陷的统计等。本文所提出的离网分析数据挖掘专题其系统架构和软件应用部署经过近一年的应用实践,目前该系统运行稳定,性能良好。特别是将模型分析给出的客户评分信息反馈到了运营系统,基本形成闭环管理,大大提高了对高价值客户离网关怀的处理及时率。