基于LSA的二次降维法在中文法律案情文本分类中的应用

来源 :电子测量技术 | 被引量 : 0次 | 上传用户:skyboat521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用文本挖掘来表达文本特征,由于文本表现出巨大的维数,从而导致处理过程计算复杂,因此,首先应该对文本进行降维处理。潜在语义分析理论(1atentsemanticanalysis,LSA)作为一种文本聚类的方法,在有效提取文本信息表现出许多特有的优势,在多个领域中被引用。本文构建了中文法律案情文本分类系统,引入LSA方法进行文本向量空间的二次降维,并利用LSA方法处理后的特征集——文档矩阵代替原有矩阵,从而进一步删除噪声,加快分类系统的处理速度。文中给出了具体实现过程及实验数据,通过实验证明该方法能收到较好
其他文献
本文简要地阐述了SCS系列电子汽车衡的系统构成及工作原理,介绍了称量系统的故障分类和产生原因,提出了故障诊断的一般方法以及典型故障分析处理的原则和思路。
本文设计了一个基于IPTV的新闻节目分析系统,该系统采用了基于内容的视频检索技术,实现了对新闻内容的自动分段以便于快速检索特定内容的新闻,并对该系统的接口和功能模块做了详
电磁发射是全部或部分地利用电能为射弹提供推力的一类新型超高速发射装置。电磁发射中最主要的部件之一是高功率脉冲电源。本文所研究的多级同步感应线圈发射(电磁发射的一种
码率控制是H.264中极为重要的一个环节,参考软件Joint Model(JM)已给出了相应的算法。由于JM模型采用线性模型预测平均绝对差值(MAD)以获得模式选择所需要的量化步长,因此算法运