一种基于模式聚合和粗集的文本特征降维方法

来源 :中国人工智能学会第12届全国学术年会 | 被引量 : 0次 | 上传用户:majk509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的文本特征降维方法。对于经过预处理后的具有较多数量特征词条的文档集,首先采用模式聚合理论将对分类类別有相似贡献的特征词条合并为新的特征,从而减少了特征的数量,然后利用粗糙集的决策表表示,用属性约简理论进行特征再降维,最终得到可以有效表示文档的特征集。利用公用标准数据集Reuters21578进行仿真实验,结果表明此降维方法是有效的。
其他文献
为了实现基于内容的文本集主题描述,本研究提出了一种新的文本集表示模型。该方法将文本中项的频率、项的共现频率以及它们在文本集中的分布情况有机结合,构造了一种新的文本
本研究在“全信息自然语言理解”理论的基础上,运用多Agent技术研究实现了面向多领域的短文本倾向分类系统。针对特定领域,利用包含语法、语义、语用信息的领域全信息知识库,
本文提出了一种利用统计学习算法进行汉语句子骨架成分识别的方法。骨架成分识别基于短句进行,包括主语、核心动词短语、宾语等。骨架成分的单位是基本短语。利用IOB模型编码
会议
中草药是祖国医药伟大宝库的重要组成部分。运用近代科学知识和方法来研究中草药的有效成分是发掘整理提高祖国医药遗产不可缺少的重要内容。这不仅能从中草药中寻找更多防
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。本研究以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算
动词语义框架识别在半监督语义角色标注方法中是一个关键的步骤,本文提出了一种基于语义相似度的未登录动词语义框架识别方法。该方法首先计算未登录动词与已登录动词的语义
文本表示是文本信息处理的基础问题,目前常用的文本表示模型没有考虑文本中词汇间的关系,在表示文本时损失了大量的文本结构信息,而这些文本结构信息对于理解文本是至关重要的
计算机语料库的发展为词语搭配研究提供了新的方法,本文在介绍词语搭配中常用的三种统计方法的基础上,重点提出一种与泛逻辑学相结合的方法,并用Matlab软件实现词语的搭配程