【摘 要】
:
随着互联网技术的快速发展,网络成为人们获取信息的主要来源,为了能有效地获取这些信息,人们希望对网页实现自动分类。因此,网页分类成为实现快速检索信息的一项重要技术,它
论文部分内容阅读
随着互联网技术的快速发展,网络成为人们获取信息的主要来源,为了能有效地获取这些信息,人们希望对网页实现自动分类。因此,网页分类成为实现快速检索信息的一项重要技术,它应用机器学习的方法使网页按照其内容实现自动标注。在众多的网页分类算法中,SVM因为其优秀的学习与推广能力、较高的分类准确率,已成为一个研究热点。介绍了SVM理论基础、原理和训练算法,分析了基于SVM的网页分类技术的优点,阐述了不平衡SVM训练算法与多类SVM学习算法。针对SVM在不平衡样本集分类准确率不高的问题,改进了标准模糊SVM模型,引入参数λ,使最优超平面与两类样本之间的距离不相等,增加样本数较少一类的决策区域,同时利用样本之间的互距离构造模糊隶属度函数,更好地反映了样本之间的分布情况,减少噪音数据对分类结果的影响,提高了分类准确率。针对二分层次结构的多类SVM算法中层次结构设计的问题,提出了基于改进的二分层次结构的多类SVM网页分类算法。本算法通过改进的k-means聚类算法设计层次结构。对每个结点中的各子类样本进行聚类时,通过一个子类在两个大类中的样本数之比,决定一个子类属于哪个大类。使得一个大类内样本之间的分离性最小,两个大类样本之间的分离性最大,提高了SVM多类分类的准确率。最后,将改进后的SVM算法应用于网页分类中,对以上的改进算法进行了试验验证。实验结果表明,本文算法提高了网页分类的准确率。
其他文献
云计算给信息技术行业带来了一场新的革命。支撑云计算的关键技术包括虚拟化技术、分布式文件系统、并行计算技术和非关系型数据库技术等。Hadoop是一个集各种云计算技术于一
文本分类是数据挖掘中一个重要的研究领域,KNN文本分类算法是一种基于实例的、非参数的文本分类方法,是向量空间模型(VSM)下最好的文本分类方法之一。其主要步骤有:文本分词,
长期以来,高压绝缘子污闪事故一直困扰着人们的日常生活,近几年,随着电网范围的扩大,电压等级的提高,高压绝缘子污闪事故造成的损失和影响就更加突出。针对这一现象,绝缘子泄漏电流在线监测是近年来电工领域新兴的研究重点,通过在线监测可以及时获得实际运行中设备的绝缘状态参数,以便及时发现绝缘缺陷,提前做好预防解决措施。在现有的绝缘子的泄漏电流监测系统中,通过传感器采集到的泄漏电流,通常是经过GPRS或无线传
服务自动组合作为面向服务的计算(Service Oriented Computing,SOC)和面向服务的体系架构(Service Oriented Architecture,SOA)中的关键技术,一直是服务科学发展中倍受关注的
中国移动IP承载网是中国移动新一代能够同时支持语音、视频、数据、企业互联等多种业务的核心承载平台。为全面掌控IP承载网运行状态,达到对IP网络分析与质量监测工作的“电信
无线传感器网络应用广泛,是当前的一个热点研究领域,在许多应用场合,实时性是衡量无线传感器网络的重要指标之一。在无线传感器网络中,实时路由协议的主要目的是在保证数据实时传
在科技飞速发展的今天,计算机逐步走进了千家万户。与此同时万维网与人类生产和生活的关系也越来越密切,通过网络能够使得很多工作变的越来越方便快捷。比如网上银行、网上购
GIDS(GigabitIDS)是指能处理千兆及更高流量的网络入侵检测系统。报文分类算法作为GIDS的核心组成部分直接决定了该系统的检测性能。已有的高速报文分类算法主要通过使用高性
网络编码是一种可使多播传输速率达到理论上界的网络传输技术。有别于传统网络存储-转发模型,网络编码使用存储-编码-转发模型,在源节点和中间节点对欲传输的信息进行编码,并
数据挖掘是一个年轻且充满生机的研究领域。分类是数据挖掘研究的内容之一。朴素贝叶斯分类是应用比较广泛的分类方法,是贝叶斯分类法的一种,它可以与决策树和神经网络分类相