基于对称性检测的数据分析方法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jackchenz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今这样一个信息爆炸的时代,有效的数据分析方法起着至关重要的作用。数据分析的目标是揭示蕴藏在数据中的规律或者知识,因此它几乎可以应用在人类生活的各个领域。从传统统计学领域的数据分析,到今天新兴的数据挖掘领域,数据分析的研究一直都受到广大学者们的关注。目前,学者们根据不同的原则已经提出了很多有效的数据分析方法,但对称性检测在数据分析中的应用并没有得到应有的重视。 本文主要探讨如何将对称性检测整合到已有的数据分析方法中以提高其性能。首先,对于聚类分析,我们提出了一种新的基于镜像对称的层次聚类算法SymHC,思路是利用数据集本身的镜像对称性信息导出合适的相似度度量,以更好地反映数据集的对称特征(如果存在),从而增强聚类的效果;在利用对称性对数据样本局部分布的均匀程度进行度量的基础上,我们提出了基于局部分布的离群点的概念,并相应地给出了两种检测算法LDBOD/LDBOD+;最后,我们尝试通过数据分布中的骨架点对原来的数据集进行聚类分析,从而提出了一种新的聚类算法SPBC,在提取骨架点的过程中,为了确定当前样本集的“形状”,我们又从局部对称性的角度提出了一种新的边界点检测算法SBBPD。 本文通过一系列的实验将所提出的算法和原有的各种算法进行了比较,从而评估了本文提出的算法的有效性,并且尝试将其应用于实际问题的解决,如网络入侵检测,基因芯片数据的聚类分析。
其他文献
本文对基于插件的性能测试框架的设计与实现进行了研究。文章构建了一个基于插件的性能测试框架,基于插件的性能测试框架为开发人员提供了一个收集性能数据的平台,开发人员可以
随着自动化技术的发展,传感器的状态对设备控制性能的影响越来越大。传感器状态在线诊断技术正成为一个越来越重要的研究课题。 本文对轧机速度传感器状态和设备性能之间的
新的虚拟化技术带来了新的虚拟化架构,这种新的架构为安全监控提供了一种新的思路,即在管理域中监控客户域中的操作系统,监控软件是在客户操作系统的外部。这种新的监控架构,需
随着信息技术的飞速发展,电子政务成为近几年信息化研究的热点,电子政务的发展为我国政府带来了巨大的活力,但是信息孤岛的存在大大阻碍了电子政务的发展。信息孤岛降低了电子政
本文通过分析研究现有的反垃圾邮件过滤技术,结合垃圾邮件自身的特点,从电子邮件的文本内容出发,将Winnow算法应用于垃圾邮件过滤,试图构造一种速度快、计算简便、性能好、反馈学
电子邮件己经成为人们日常生活中通信、交流的重要手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet,给用户和ISP造成了
Web技术的发展使得商务网站风起云涌,电子商务已经成为商业的新模式。建构一个电子商务网站并不难,难的是如何让电子商务网站获得效益,利用Web挖掘技术可以有效地解决这个问题。
工作流(Workflow)技术通过运用计算机自动执行组织机构中的部分或全部业务流程,从而显著提高业务流程处理的性能和效率。在商业、保险、银行、行政管理等领域中,通过互联网得
本文在分析数据ETL(Extract-Transform-Load)现存技术情况后,从技术可行性上做了足够的论证,提出了ETL解决方案原型,利用中间数据作为文件接口,把ETL各个过程独立开来,同时利用元
随着网络应用的快速发展,网络安全成为无法回避的问题。传统上公司一般采用防火墙作为安全的第一道防线。而随着攻击者知识的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火