文本分类中基于概率主题模型的噪声处理方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:yuswe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分
其他文献
目前的信息共享系统普遍存在着对内网终端的防火墙穿透问题。针对这个问题.本文在现有的UDP穿透和TCP穿透两种方案基础上对实际应用中的各种可能传输情景进行分析,提出了一种UD
零中频接收系统以其高集成、低功耗和易于单片集成等优点,正成为射频接收机中极具竞争力的一种结构。针对零中频接收机存在IQ不平衡和直流漂移等固有问题,对两种接收机形式由于
MOD问题是指在进行过程调用时哪些信息可能在被调用的过程中被修改。针对C语言,本文提出了一种基于流敏感、上下文敏感指针分析结果的MOD分析算法。该算法通过计算表达式在指
实证研究显示两岸贸易与投资呈互补关系,两岸经贸政策,特别是台湾对大陆的经贸政策影响着"互补关系"的形成,影响的机制有4个:投资带动机制、投资返销机制、投资衍生机制、诱
在长期的社会演变和历史进程中,中西方思想史上积累了丰富的关于“和谐”的思想素材。在特定历史环境和生活条件下,不同的文化背景、民族风格和思维方式形成了特色鲜明、志趣各
在分子动力学模拟(MD)中,对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook+的两种双精度算法,分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算,借助GPU的计算
基于信誉构建信任机制是解决虚拟计算环境中行为可信问题的重要途径。现有信誉模型对不良行为的动态适应能力和对信誉信息的有效聚合能力不足,缺乏鼓励节点积极参与诚实合作的