基于特征恢复的中文残缺文本分类研究

来源 :北京电子科技学院学报 | 被引量 : 0次 | 上传用户：agsxuming

【摘要】

：

为了更好的对残缺文档进行分类，本文以基于支持向量机的文本分类方法（SVM）和卡方统计量（Chi--Square）的文本特征提取方法为背景，提出了有监督学习模式下的两种文本特征恢复算法以及

【作者】

：

徐璐周亚建

【机构】

：

北京邮电大学信息安全中心

【出处】

：

北京电子科技学院学报

【发表日期】

：

2011年4期

【关键词】

：

文本分类 SVM 卡方统计特征恢复 Text Categorization SVM Chi-- Square Feature Recovery

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了更好的对残缺文档进行分类，本文以基于支持向量机的文本分类方法（SVM）和卡方统计量（Chi--Square）的文本特征提取方法为背景，提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较，该方案在分类前通过预先对文本中残缺词恢复，实现了残缺文本的部分特征恢复。实验表明，相较于传统方法，该方案在低残缺率下，对文本分类的影响不大；在高残缺率下，该方案能得到较好的分类效果。

其他文献

培养学生搜集和处理信息能力的有效策略

当前学生搜集处理信息的能力低下，“方法单一”、“盲目行动”、“照搬资料”是学生固有的不良搜集处理习惯，教师在指导学生开展综合实践活动的过程中，可以引导学生从“单一搜索

期刊

信息搜集信息处理策略information collection information processing strategy

计算机网络安全防护中防火墙的局限性

针对计算机网络安全防护当中防火墙的局限性,介绍了计算机网络安全中常见的攻击手段,如网络通信攻击手段的表现形式和网络系统自身攻击手段介绍,探讨了安全传统网络防火墙的

期刊

计算机网络安全防护防火墙

小儿乙型病毒性肝炎167例临床分析

目的探讨小儿乙型病毒性肝炎的临床表现及发病特点。方法对本院2002年1月～2005年12月收治的167例8个月～13岁乙型病毒性肝炎患儿进行临床分析。结果 167例中慢性乙肝占91％，发病

期刊

小儿乙型病毒性肝炎

开发手机软件，提高电能表检定效率

本文通过调查发现引起我们用户计量班的电能表检定效率低的主要原因是记录本查询时间过长，并针对发现的要因“对症下药”。，首先，我们制定资料管理制度，派专人管理；其次，建立大用户

期刊

电能表检定效率数据库手机查询软件开发目录

一种多路数据采集系统的设计方法

该系统采用双单片机控制,主机与从机都使用AT89C52单片机。主单片机进行数据处理,数据显示。从单片机负责采集八路数据;数据采集器第1路输入自制1-5V直流电压;第2-7路分别输

期刊

数据采集A/D转换AT89C52ADC0809

产业网络灾害经济损失评估研究进展

开展产业网络灾害经济损失评估研究,是理解产业网络脆弱性和潜在风险,科学指导灾前风险防范及灾后恢复重建决策的关键环节。本文从产业网络中灾害扩散的角度,对其造成的经济

期刊

产业网络灾害直接损失间接损失进展

小学语文朗读教学新探

<正>《语文新课程标准》指出:要让学生充分地读,在读中整体感知,在读中有所感悟,在读中培养语感,体验品味。朗读,是把无声的语言文字转化为有声的情感环境,它是语文学习的中

期刊

朗读教学教学新探

基于特征恢复的中文残缺文本分类研究

其他学术论文