潜在语义分类模型的研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:kmyzchenpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Retrieval:IR)领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究。 潜在语义索引模型(Latent Semantic Indexing:LSI),是近年来在信息检索领域中使用较多并较为有效的维数约简算法之一。应用LSI模型进行信息检索或文本分类,不是基于文档集中表层的词汇信息而是潜在语义结构,其性能比传统的基于向量空间模型(Vector Space Model:VSM)的方法要高出许多。 然而,LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,得到的特征空间会保留原始文档矩阵中最主要的全局信息。但在某些情况下,一些对类别的正确识别非常重要的特征,因为放在全局下考虑显得不重要,而在维数约减的过程中被滤掉。 针对上述问题,在扩展LSI模型的基础上,我们提出了一种新的文本分类模型:潜在语义分类模型(Latent Semantic Classification:LSC)。本文较为详细地阐述了潜在语义分类模型的原理,并研究了LSC模型在特征维数变化下的分类性能问题和LSC模型与其它经典分类模型的性能比较问题。根据我们的实验结果,LSC模型具有良好的分类稳定性和准确度;在英文文本分类和中文文本分类的实验中,均表现出了比kNN分类器和SVM分类器更好的分类性能。 本文的创新之处包括: 1) 在扩展潜在语义索引模型的基础上,提出了一种新的文本分类模型:潜在语义分类模型(Latent Semantic Classification:LSC); 2) 验证和分析了LSC模型的英文文本和中文文本的分类性能,研究了LSC模型的分类稳定性以及与其它多种分类模型的性能比较问题。
其他文献
近年来,云环境已经越来越多的受到科研界和工业界的重视。由于云环境具有半可信的特征,为了保证外包到云上的数据的访问安全,云环境需要提供数据加密和相应的密钥管理功能。如何
本论文研究角色与任务相结合的访问控制技术及其在电子政务系统中的应用。访问控制作为国际化标准组织定义的五项标准安全服务之一,是实现信息系统安全的一项重要机制。然而,
近几年来,计算机网络发展异常迅猛。网络规模不断扩大,复杂性不断增加,网络的异构性越来越高。导致网络出现各种性能问题的可能性增大,而且传播得更为广泛,发现和诊断问题的
洪水灾害的频发一直以来都对我国社会经济发展与自然环境保护造成严重威胁。在我国的防洪体系建设中,蓄洪垸是重要的组成部分,蓄洪垸的主要作用是分蓄洪水,对相应区域的洪水水位
本文以USB(Universal Serial Bus)接口的数据采集系统的研制过程为主要内容,阐述了利用Philips公司的PDIUSBD12芯片与ATMEL的AT89C52单片机实现USB接口的设计方案、开发方法
随着集成电路技术以及芯片制造工艺的高速发展,在CPU内部嵌入调试功能模块的片上调试技术(On-hip Debugging)应用越来越广泛。在进行SoC芯片的系统开发时,对SoC芯片的调试直接
构件软件在其生命周期中会经历多次演化,在演化过程中会对构件系统进行修改。要验证修改的正确性和新系统的可靠性,就必须对构件系统重新执行测试。构件系统回归测试只需要测试
随着企业合作和管理信息化的发展,许多信息系统要访问异构数据库,这些数据库的异构性体现在数据库类型的不同、数据库结构不同或者数据类型的不匹配。而可扩展的标记语言由于
肾脏和前列腺都是人体的重要器官,近年来肾脏疾病和前列腺疾病对人类健康造成了很大威胁。在肾脏疾病诊断中,医生经常使用CT机来对肾脏的病情进行观察,CTA(ComputedTomographic