基于特征恢复的中文残缺文本分类研究

来源 :北京电子科技学院学报 | 被引量 : 0次 | 上传用户:agsxuming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi--Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。
其他文献
当前学生搜集处理信息的能力低下,“方法单一”、“盲目行动”、“照搬资料”是学生固有的不良搜集处理习惯,教师在指导学生开展综合实践活动的过程中,可以引导学生从“单一搜索
针对计算机网络安全防护当中防火墙的局限性,介绍了计算机网络安全中常见的攻击手段,如网络通信攻击手段的表现形式和网络系统自身攻击手段介绍,探讨了安全传统网络防火墙的
目的 探讨小儿乙型病毒性肝炎的临床表现及发病特点。方法 对本院2002年1月~2005年12月收治的167例8个月~13岁乙型病毒性肝炎患儿进行临床分析。结果 167例中慢性乙肝占91%,发病
本文通过调查发现引起我们用户计量班的电能表检定效率低的主要原因是记录本查询时间过长,并针对发现的要因“对症下药”。,首先,我们制定资料管理制度,派专人管理;其次,建立大用户
该系统采用双单片机控制,主机与从机都使用AT89C52单片机。主单片机进行数据处理,数据显示。从单片机负责采集八路数据;数据采集器第1路输入自制1-5V直流电压;第2-7路分别输
开展产业网络灾害经济损失评估研究,是理解产业网络脆弱性和潜在风险,科学指导灾前风险防范及灾后恢复重建决策的关键环节。本文从产业网络中灾害扩散的角度,对其造成的经济
<正>《语文新课程标准》指出:要让学生充分地读,在读中整体感知,在读中有所感悟,在读中培养语感,体验品味。朗读,是把无声的语言文字转化为有声的情感环境,它是语文学习的中