论文部分内容阅读
该文重点研究了基于间隔最大化原理的自动文本分类技术,以最新的机器学习理论成果为基础,提出并解决了与自动文本分类相关的多个重要理论与实践问题,发展与丰富了多项信息检索的关键应用技术.本文的创新性研究工作主要有以下几个方面:1.该文提出了两个文本分类的理论模型,从文本集合"被分类能力"这个崭新的角度揭示了自动文本分类的机器学习本质,同时也从理论上进一步解释了支持向量机技术在自动文本分类中能够取得成功的根本原因.标准测试数据集上的实验结果充分验证了这些结论.2.在已经得到的文本分类理论模型的基础上,该文提出了实现启发式模型选择的HMSAD算法.最初的支持向量机用于两类分类问题,在组合多个原始支持向量机的基础上,已经提出了多种多类分类器架构.但是目前在大规模多类自动文本分类研究中,尚未提出有效的模型选择方法,使得支持向量机的应用受到一定限制.本文在DAGSVM多类分类器架构的基础上,利用DAGSVM泛化能力的一些相关理论成果,结合前面部分得到的基于间隔最大化的文本分类模型,以ADM-FSM模型为例,提出了在DDAG中进行启发式模型选择的指示函数,并给出了基于DAGSVM的HMSAD算法.并且就该算法的性能与常规的1-v-r支持向量机、1-v-1的DAGSVM进行了比较、分析,相关的理论分析结果表明,HMSAD算法相对于传统算法具有突出的性能优势.3.该文首次解决了支持向量机跨距界的计算问题,提出了支持向量机的Alpha-SV界,并给出了相关的信息检索性能估算子.目前提出的各种分类器性能估计方法中,精度高的方法普遍效率比较低下,而计算代价较小的方法又往往存在精度不够理想、估计的鲁棒性能不佳等一些缺点.针对这个问题,重点研究了支持向量机的LOO跨距界,首次给出计算支持向量跨距的实用方法,进而提出了一种新的支持向量机LOO界——Alpha-SV界,这个界源于跨距界,具有严密的理论基础,同时又避免了遍历支持向量集合进行多个二次规划求解,大大降低了计算代价,从而得到了一种全新的效率高、性能好的支持向量机分类性能估计方法.更进一步,从应用自动文本分类技术的角度出发,在Alpha-SV界的基础上提出了可操作性很强的、面向信息检索的支持向量机性能评估指标,即信息检索性能估算子.并且通过标准测试数据集上的实验对上述结论进行了充分的验证.