数据仓库下中文数据清理的研究与应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:lwsun_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文较详细、全面、简明地论述了数据仓库中的数据清理问题:介绍了国内外的研究现状,分析了数据中存在的问题(“脏数据”)、数据清理的方式、方案、流程及所用的技术与方法等.我们重点研究了中文数据清理中的重复记录问题,对属性清理也有所论述,但主要是作为自动分词与重复记录清理的预处理步骤.我们分析了“特征词”法进行中文数据清理的不足,然后从英文与中文的区别出发,借鉴英文数据清理中的算法与思想,分析说明了中文数据清理应解决的问题,且将自动分词引入到中文数据清理中,提出了“基于自动分词的中文数据清理”方案.该文中的自动分词是中文重复记录清理的基础,它解决了中文数据清理与英文数据清理中一个较根本的问题,从而使前者能应用后者中已有的成果.该文详细介绍了我们的中文数据清理方案:预处理、匹配标准、分词后的排序问题、记录比较的思想、冲突解决方法及作为基础的自动分词,并举例说明了各个步骤.
其他文献
该文介绍了搜索引擎发展的现状和它所面临的问题,详细介绍了我们初步实现的FlyingSender中文搜索引擎的具体框架体系结构,并着重描述了各个模块的功能和工程上的实现方法.搜
我国于2001年颁布了《计算机信息系统安全保护等级划分准则》(简称《准则》).这个标准对于信息产品的开发、企业的技术管理、市场准入以及政府执法机构的监管都有着重大意义.因
该文分章阐述了TaxAnalyze系统的结构模型设计,数据转换算法模型,面向分析主题的数据汇总,高级分析处理的设计以及基于决策树的选案分析模型设计.重点论述了作者创建的各种模
首先,本文提出了一个基于鲁棒性光流场的人脸跟踪算法。介绍了人脸运动的参数模型,实现了一个基于鲁棒性回归算法的人脸跟踪系统。这个系统能鲁棒地跟踪人脸的平移、旋转、缩放
该论文在虚拟数据仓库技术的基础上,提出了一个基于查询优化的虚拟数据仓库模型QVDW(Query-optimization based virtual data warehouse).该模型不仅具有虚拟数据仓库的各种优
该文对Z39.50网关在图书馆信息检索系统中的应用进行了比较全面和深入的研究,并给出了一个实例,主要工作可以概括为如下3个方面:1)介绍了Z39.50的原理,研究了它与Web之间的关系
该文首先分析了Internet安全性问题存在的原因,介绍了有关网络安全的标准,入侵检测系统的基本概念,详细分析了有关入侵检测方法、体系结构,提出了传统入侵检测系统的缺点.在
该文阐述了当今软件行业的危机,并系统地综述了当今解决软件危机的核心技术——软构件技术,总结了软构件的概念、特性和实现机理.对当今三种主流软构件技术(CORBA、COM/DCOM
该文首先设计与实现了一个Linux下的异常检测原型,然后着重详细阐述了数据收集、轮廓行为、入侵判定算法的研究.其中,在轮廓行为过程中,我们在实验基础上探讨了入侵异常产生
如今由于信息技术的爆炸式发展,数据规模变得越来越大。尤其在一些科学研究及生产环境中,数据的采集量也变得越来越大。在这类数据采集应用中,数据采集工作一般由嵌入式设备