基于机器学习的自动文本分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zphym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文重点研究了基于间隔最大化原理的自动文本分类技术,以最新的机器学习理论成果为基础,提出并解决了与自动文本分类相关的多个重要理论与实践问题,发展与丰富了多项信息检索的关键应用技术.本文的创新性研究工作主要有以下几个方面:1.该文提出了两个文本分类的理论模型,从文本集合"被分类能力"这个崭新的角度揭示了自动文本分类的机器学习本质,同时也从理论上进一步解释了支持向量机技术在自动文本分类中能够取得成功的根本原因.标准测试数据集上的实验结果充分验证了这些结论.2.在已经得到的文本分类理论模型的基础上,该文提出了实现启发式模型选择的HMSAD算法.最初的支持向量机用于两类分类问题,在组合多个原始支持向量机的基础上,已经提出了多种多类分类器架构.但是目前在大规模多类自动文本分类研究中,尚未提出有效的模型选择方法,使得支持向量机的应用受到一定限制.本文在DAGSVM多类分类器架构的基础上,利用DAGSVM泛化能力的一些相关理论成果,结合前面部分得到的基于间隔最大化的文本分类模型,以ADM-FSM模型为例,提出了在DDAG中进行启发式模型选择的指示函数,并给出了基于DAGSVM的HMSAD算法.并且就该算法的性能与常规的1-v-r支持向量机、1-v-1的DAGSVM进行了比较、分析,相关的理论分析结果表明,HMSAD算法相对于传统算法具有突出的性能优势.3.该文首次解决了支持向量机跨距界的计算问题,提出了支持向量机的Alpha-SV界,并给出了相关的信息检索性能估算子.目前提出的各种分类器性能估计方法中,精度高的方法普遍效率比较低下,而计算代价较小的方法又往往存在精度不够理想、估计的鲁棒性能不佳等一些缺点.针对这个问题,重点研究了支持向量机的LOO跨距界,首次给出计算支持向量跨距的实用方法,进而提出了一种新的支持向量机LOO界——Alpha-SV界,这个界源于跨距界,具有严密的理论基础,同时又避免了遍历支持向量集合进行多个二次规划求解,大大降低了计算代价,从而得到了一种全新的效率高、性能好的支持向量机分类性能估计方法.更进一步,从应用自动文本分类技术的角度出发,在Alpha-SV界的基础上提出了可操作性很强的、面向信息检索的支持向量机性能评估指标,即信息检索性能估算子.并且通过标准测试数据集上的实验对上述结论进行了充分的验证.
其他文献
时空数据库管理系统(Spatio-Temporal DBMS)是能够同时处理时态数据和空间数据的数据库管理系统。如何将时态属性和空间属性有机的结合起来是实现时空数据库技术的关键问题。
众所周知,操作系统是连接计算机硬件与上层软件及用户的桥梁,它的安全性是至关重要的。虽然我们不能说Linux一定比Windows更安全,但与封闭源代码的Windows相比,开放源代码的Linux
内存数据库系统是一种数据库新技术,其设计思想是在系统运行时将整个数据文件或将数据文件的一部分读入共享内存中,所有数据的存取和管理都在内存中完成,尽可能的减少磁盘操
“异步单进程事件驱动代理服务器”是信息产业部“电子发展基金” 支持的“网络多功能服务器”项目下的一个子课题。当前Internet在迅猛发展,但网络带宽的增加与信息量和使用
流媒体应用有着与其他应用所不同的特点,在分析流媒体对存储系统的特别要求的基础上,深入研究了能大幅度提高其读性能的技术——改进的文件系统与RAID算法,设计并实现了其在
随着网络的飞速发展,通讯变得更加频繁,信息安全技术变得越来越重要。CSP(Cryptographic Service Provider)是微软公司提出的安全服务基本框架之一,它参照了ASN.1、PKCS等一系列
在网络计算时代,软件生产所面临的难题是需求的不定性和系统环境的高度开放性、复杂性。因此,从某种程度上讲,适应性成为现代软件最为重要的质量属性。目前,人们正试图使用Agent
存储区域网(SAN)是存储领域的一项重要技术,由存储服务器,存储设备和网络组成。大多数SAN采用SCSI协议作为不同存储设备的公共协议。运用IP和以太网技术,可以构建可扩展,易管