【摘 要】
:
文本分类是文本挖掘和信息检索领域的一大重点基础技术,其效果严重的依赖于文本特征提取的好坏。因此如何利用较好的学习方法(如深度学习)得到一个好的特征表示,从而在分类时
论文部分内容阅读
文本分类是文本挖掘和信息检索领域的一大重点基础技术,其效果严重的依赖于文本特征提取的好坏。因此如何利用较好的学习方法(如深度学习)得到一个好的特征表示,从而在分类时提供更有价值的信息成为了当前的研究热点。本文的研究重点是如何更好的进行文本的特征表示和特征选择。本文的主要工作如下四个方面:1)研究并实现了四种经典的文本特征选择算法。提出了一种基于特征统计量可靠性度量的特征选择改进算法,该算法改善了特征项统计量对随机噪音的抗干扰能力。实验证明该算法能够改善经典特征选择方法。2)从词向量角度分析了基于LDA和半监督LDA的文本特征和分类方法,提出并实现一种基于LDA词向量的特征选择方法。通过利用特征词在主题上的分布情况来评估该特征词对分类的价值。实验证明该方法具有良好效果。3)实现了两种基于深度学习的文本特征算法。一种是基于Word2vec工具的深度学习算法,利用该工具学习出的词向量可提升分类效果。另一种是基于堆叠式去噪自编码器(SDA)的深度学习算法,在跨领域情感分类的实验中,SDA比直接跨域分类的效果更好。4)提出并实现了基于词激活力(WAF)的文本特征赋权及文本特征选择算法;同时提出一种WAF关联词对特征,并设计出相应的特征选择算法。该方法考虑了特征词间的关系信息,改善了VSM模型的特征独立性假设缺陷,NEWSGROUP数据集的上的实验结果证明了上述算法的有效性。
其他文献
十二五期间我国处于一个高速发展的冲刺期,在十二五期间各行各业得到了很大的发展,以城市建设为主的城镇化工作的推进对地方经济的带动以及对内需的拉动尤为明显,中国社会科
目的探讨抗生素药物治疗产生的不良反应,并针对不良反应制定护理措施。方法回顾性分析2010年1月—2014年2月该院应用抗生素治疗感染的2 216例患者不良反应发生情况。结果 2 2
王素梅教授通过多年的实践观察发现,在处方用药过程中适时适量地加入桂枝,往往能够提高临床疗效。王师灵活运用桂枝的病例颇多,在不同疾病中使用桂枝的意义也有所差异,其中的
分析了大数据时代数字图书馆用户个人隐私信息的保护价值及新特点,探索了大数据时代数字图书馆信息服务中个人隐私的泄露途径,并提出保护策略。
2008年金融危机爆发后,在世界经济整体复苏前景仍不明朗,但新兴市场经济体尤其是金砖国家(BRICS)间经济贸易合作日益密切,BRICS在世界经济中地位稳步上升,其拟成立开发银行就是在这
氟氧化物玻璃和微晶玻璃既有氧化物好的机械性能和稳定性,又有氟化物的低声子能量优势,是一类性能优越的稀土发光基质材料。目前对于该材料的研究主要集中于发光和微晶结构方
通过工程设计实例,证明大跨度焊接箱型钢梁设计要从强度、挠度、稳定、防火等方面进行验算。钢主梁结合钢次梁、压型钢板作为施工操作平台,可省去搭设满堂红高支模的施工工序。
我国现正处于高速发展阶段,能源开发和利用也处于高速增长阶段,高效利用和节约能源已经成为当代中国急需解决的重大问题。随着我国推进经济结构的调整和发展方式的转变,电力
俗话说“民以食为天”,说明了食物在人们生活中的重要性。就单个个体来说,食物是个体生命延续的根本保证;从人类这个群体来说,食物是族群能够生存、延续、发展的基础。然而,近年来
目的:本课题采用密度梯度离心收集获得人脐血单个核细胞(mononuclear cells, MNCs),经过传代培养得到人脐血源基质细胞(humanumbilical cord blood-derived stromal cells, hUCBDS