基于主题模型的中文文本分类相关技术研究

被引量 : 9次 | 上传用户:chelseainter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息量的快速增长,如何有效的从庞大的信息中挖掘出有价值的信息变得越来越困难,面对这种需求,利用计算机进行智能信息处理便得到了广泛的研究。文本自动分类和相似度计算作为信息抽取、信息检索和自然语言处理等领域的研究热点,得到了快速的发展和广泛的应用。近几年,机器学习的方法被广泛的应用于文本自动分类上,与传统的文本分类技术相比,具有更好的研究效果和应用价值。在文本分类过程中,由于数据偏斜和噪音数据造成的影响,训练文本不能完全拟合整个特征空间的分布情况,因此,要想获得很好的分类性能仅仅采用传统的分类技术是行不通的;另外,特征选取是影响文本分类性能的重要因素,特征空间维度过高会导致分类过程中计算量非常大,耗费庞大的存储空间,若降维效果不理想也会直接影响分类的最终效果。为了更好的解决上述问题,本文在文本自动分类中引入了一种新的LDA概率主题模型,通过LDA模型对文本集建模,挖掘文本集中潜在的语义关系,将数据空间映射到维度较小的主题空间上,然后结合支持向量机分类算法训练分类器,最终实验结果显示该方法明显改善了文本分类的效果。本论文主要包括了如下三个研究内容:1.引入了一种近几年来非常流行的LDA概率主题模型。针对大规模文本语料库,在各类训练语料集上使用LDA模型对其建模,发现隐藏在文本集中的主题信息,采用Gibbs抽样算法推导估计模型参数,有效地从大规模文本集中抽取主题,最终获得文本集隐含的关于文本主题的混合分布,大大降低了表示空间的维度和训练分类学习器的时间。2.将LDA模型引入到文本相似度中是本文研究的重点内容之一,该方法采用上述LDA模型拟合文本数据集,获得隐含的文本主题维度矩阵,通过JS距离公式计算各文本之间的相似度大小,最终对计算获得的结果进行聚类实验,实验结果表明该方法明显好于基于向量空间模型的计算方法。3.将LDA模型引入到分类方法中,同时结合支持向量机分类算法,是本论文研究的另一个重要内容,该方法充分利用了LDA模型强大的文本表示和降维能力,并且发挥了SVM高效的分类性能,对每一类文本集进行LDA建模,构造子LDA模型,然后利用SVM算法对所有的子LDA模型训练分类器,实验结果说明该方法明显好于传统的文本分类技术。
其他文献
文化产业发展,将会是我国经济发展结构调整的重要组成部分,也是未来经济发展的驱动力。本文采用了文化产业全要素生产模型和DEA模型,对2005-2014年文化产业的投入产出数据进
<正>直销本无罪,罪在一些直销企业超出经营的应有边界。权健事件,给整个行业上了生动一课,直销牌照不应成为从事传销非法勾当的"合法外衣"。而立法和执法亦应反思,在法治社会
本试验采用响应曲面法的Box—Behnken设计,研究了高静压处理对蜡样芽孢杆菌生命活动的影响。结果表明压力处理导致了蜡样芽抱杆菌的致死作用与损伤效应。利用Design Expert软
在当前的中职教育中,顶岗实习作为教育教学的一个重要环节,对培养学生良好的职业意识和职业道德、提升学生的实践动手能力有着至关重要的作用。然而,由于种种原因,导致了中职学生
铝合金模板凭借其在自重、强度、承载力等方面的性能优势,在高层建筑施工中得到了日益广泛的应用。本文基于某高层建筑工程实例,围绕测量放线与钢筋绑扎、模板安装工艺、楼梯
行政处罚权是行政机关和法律授权的组织对违反行政法律规范的公民、法人和其他组织予以惩处的权力,是一种具有国家强制性的行政制裁权.行政处罚权从法条中产生时起就带着自由
介绍了一种基于GaN功率放大芯片的Ku波段宽带固态功率放大器的设计与实现。通过采用目前已经成熟的合成技术,进行了128路的功率合成,获得了大于1 000W的宽带输出功率和20%的
新旧动能的转换,会形成产业、行业、区域之间的明显分化,这也成为经济结构调整进程加快的重要表现,新旧动能的转换过程既是培养新的能源与动力的过程,也成为加速各种风险和矛
近年来,随着我国对考试焦虑研究的发展,考试焦虑辅导在进一步的完善和细化。为了对考试焦虑的干预策略和模式进行深入的研究和发展,探索一系列规范和科学的团体辅导模式和手册是
臀上皮神经卡压综合征在临床中非常常见,且随着人们工作劳动强度增加,此病发病率呈日益增高趋势。笔者用小针刀口推拿治疗臀上皮神经卡压综合征82例,取得满意效果,现报道如下。