基于主成分分析和K近邻的文件类型识别算法

来源 :计算机应用 | 被引量 : 4次 | 上传用户:magihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征
其他文献
针对海量的语义Web服务组合中如何提高搜索速度和获得最优组合的问题,提出了一种基于服务簇和服务质量(QoS)的快速组合方法。利用预先建立的服务簇进行服务搜索,可以有效缩小搜索空间,降低语义比较的复杂度,快速得到候选服务集合。组合过程中基于服务的最优组合QoS值动态确定阈值进行服务过滤,可以获得多个最优组合。同时采用高效的冗余处理方法保证组合中冗余服务最少,并采用服务簇内部过滤的方法限制候选服务数量
党的十六大<报告>指出:"创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力,也是一个政党永葆生机的源泉."铁路跨越式发展,要求宣传思想工作必须与时俱进,创造新方法,
一、深入辨析。认清现阶段铁路内部和谐的基本内涵铁路内部和谐是指铁路企业坚持以人为本的原则,通过健全和实施公平与正义得以合理体现、职工与企业得以共同发展、企业安定有
针对现有视频二值分割算法分割性能过低的问题,提出了一种基于GPU的视频实时二值概率分割算法。该算法通过规范化视频帧中每个像素属于前景类和背景类的概率大小,实现了基于二次马尔可夫测量场(QMMF)模型的视频实时二值概率分割。首先分别为不同场景的视频帧提出了两种概率模型,即静态背景概率模型(SBLM)和动态背景概率模型(UBLM);然后,通过光照矫正算法颜色转换、阴影抑制算法阴影检测以及伪装检测算法来
针对自动导引车系统中由任务分派及路径规划共同构成的资源分配问题,基于自动化出入库系统建立模型,提出了一种以粒子群优化(PSO)迭代为框架,并加入无冲突路径规划的优化算法,弥补了以往只按顺序分配任务造成的不足。首先通过粒子群的迭代原理寻找最优任务分派方案;然后通过无冲突的路径规划得到资源分配的结果,同时在解的评价机制中加入了时间窗、工作量均衡及路径无冲突等约束条件,保证方案的可行性。通过模拟自动入库
班组是企业的细胞,思想政治工作是一切上作的基础,班组思想政治工作的优劣,直接影响着队伍稳定、班组建设和站段管理.
在新的历史时期,共产党员究竟应该具有怎样的一种形象,十六大确定的新<党章>对此有明确的规定,邓小平同志则曾把党员的形象概括为:第一是普通人,第二是普通人中的先进分子.本