数据流上的分类算法的研究

被引量 : 0次 | 上传用户：weihc

【摘要】

：

我们现在已经生活在一个网络化的时代，通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个

【作者】

：

王鹏

【发表日期】

：

2007年期

【关键词】

：

数据挖掘数据流分类频繁模式关联规则负载均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们现在已经生活在一个网络化的时代，通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个问题：“如何才能不被数据淹没，而是从中及时发现有用的信息?”。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。经历了多年的研究，数据挖掘已发展成为一个庞大的学科，主要包含分类、关联规则、聚类等。最近几年出现了大量新类型的应用，传统的数据库管理系统无法很好的处理这些应用。这些应用的典型特点是数据以序列的形式出现，比如传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等。这种数据形式称为数据流。由于数据流的特殊性：短时间内有大量数据连续到达，这些数据具有随时间动态变化的趋势，怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息，为数据挖掘及其应用研究带来了新的机遇和挑战。数据流上的分类问题具有广泛的应用背景，包括：信用卡欺诈消费行为的监测、传感器网络数据中的异常监测、网络日志分析等。数据流的数据无限、概念漂移等特点使得数据流上的分类模型不同于传统的分类模型，需要能够快速的处理流入的数据，并且及时对模型进行调整已反映新的分类信息。本文中，对数据流上的分类问题从两方面进行了研究。一方面，针对数据快速流入，并且存在概念漂移的数据流提出了基于频繁模式和关联规则的分类算法。另一方面，研究了对多个数据流的数据进行分类时的负载均衡问题。本文主要贡献包括：●提出了基于频繁模式的数据流分类算法，利用频繁模式概括数据流中的类信息，通过动态的添加删除频繁模式、以及改变频繁模式的支持度和置信度表示概念漂移。使用衰减因子来保持频繁模式的时效性。基于频繁模式的数据流分类算法提高了现有算法的准确性。●从效率出发，提出了基于规则的数据流分类算法。使用高效的数据结构压缩训练集和规则集，并且使用基于错误分类记录集学习新规则的方法，从而提高了数据流分类算法的效率。●对基于规则的算法进一步进行了扩展，提出了两种扩展算法，用来解决类分布不均衡时的数据流分类问题。●对多数据流进行分类时的负载均衡问题进行了研究。针对带宽有限、服务器无法接收所有数据流产生的待分类数据的情况，提出了一种有效的负载均衡算法。算法使用保持分类信息的数据变换方法将分类信息进行压缩，然后使用多步数据获取机制从不同数据流获取数据。并且，使用布尔向量和负信息等技术结合真实数据和变化信息，进一步对需要传输的数据进行了压缩。

其他文献

苦瓜复合粉加工工艺的研究

苦瓜是一种药食兼用的蔬菜，具有多种保健功能，其功能成分及特性正在逐渐被开发应用，是一种具有很大开发前景的蔬菜。本研究采用喷雾干燥技术开发研制出苦瓜复合粉，它将牛奶丰富的

学位

苦瓜牛奶复合粉护色脱苦喷雾干燥

兴化话罗马字研究

阐述近代莆仙地区兴化话罗马字产生的根由,并以兴化话罗马字撰译的<新约全书>为主要研究对象,归纳出其拼音方案,并依据该方案,探讨其与今天的莆田方言音系存在的异同之处.

期刊

莆田方言兴化话罗马字拼音方案

高校辅导员队伍职业化建设的困境与出路

高校辅导员职业化内涵不清晰、职业标准不明确、职位分类不具体、职业资格制度不完善和职业保障不力等一系列问题，已经严重影响了高校辅导员队伍的长远发展，制约甚至阻碍了高校

期刊

高校辅导员队伍建设职业化

果蔬低温高压膨化干燥关键技术研究

以苹果、柑桔、哈密瓜、马铃薯为主要原料，选取预干燥原料含水量、膨化温度、膨化压力、停滞时间、抽空温度、抽空时间等关键因素，采用单因素和二次正交旋转组合试验设计方法，通

学位

果蔬低温高压膨化干燥工艺

EVA应用于国有企业经营者激励问题研究

国有企业改革是我国经济体制改革的中心，完善国企经营者激励机制是深化国有企业改革的关键环节。本文通过分析研究EVA指标在国有企业经营者激励中的应用，力图探索适合国情的完

学位

国有企业经营者激励EVA激励机制

村民自治背景下村级组织建设探析

村民自治作为一种非国家形态的民主,是指农村社区的居民自己组织起来,实行以民主选举、民主决策、民主管理、民主监督为核心内容的进行自我管理、自我教育、自我服务的一整套

学位

村民自治村级组织突出问题对策思路

互联网交易数据权利性质问题研究

互联网交易数据存在着非法买卖、数据共享广泛与外包挖掘等严重风险,需要独特的保护规则。权利性质问题是互联网交易数据保护规则的基础,权利性质问题不解决,相关法律制度的

学位

互联网交易数据隐私权财产权

现代汉语被字句句法语义研究

被字句是现代汉语的一个典型句式，一直是语言学界研究的热点之一。本文在学习、借鉴前贤时哲研究成果的基础上，吸取了配价语法、格语法和句式语法的合理内涵对现代汉语被字句的

学位

被字句动核结构句模配价语法格语法句式语法

改革开放以来汉语新词语研究

词汇是语言中最活跃的要素，它对社会的发展有很强的应变性。它能适应社会发展变化的需要不断地调整与创新，从而完善、丰富起来。因此，社会生活中很多变化都会在词汇中得到反映。

学位

新词语来源造词法旧词新义原因

802.16协议安全子层实现及其安全性分析

由于无线介质天然的开放性，各种无线系统比有线系统面临更多的安全威胁。而这些威胁大多直接从空中侵入，因此更加难以防范和控制。802.16是一项新兴的无线城域网(WMAN)技术，作为

学位

802.16安全子层RadiusPKM

数据流上的分类算法的研究

与本文相关的学术论文