一种基于模式聚合和粗集的文本特征降维方法

来源 :中国人工智能学会第12届全国学术年会 | 被引量 : 0次 | 上传用户：majk509

【摘要】

：

本文提出了一种新的文本特征降维方法。对于经过预处理后的具有较多数量特征词条的文档集,首先采用模式聚合理论将对分类类別有相似贡献的特征词条合并为新的特征,从而减少了

【作者】

：

孟军马文娟

【机构】

：

大连理工大学电信学院,辽宁大连,116023

【出处】

：

中国人工智能学会第12届全国学术年会

【发表日期】

：

2007年期

【关键词】

：

模式聚合粗集文本特征降维方法属性约简有效表示文档集数量特征聚合理论仿真实验词条预处理特征集数据集决策表粗糙集公用分类标准

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种新的文本特征降维方法。对于经过预处理后的具有较多数量特征词条的文档集,首先采用模式聚合理论将对分类类別有相似贡献的特征词条合并为新的特征,从而减少了特征的数量,然后利用粗糙集的决策表表示,用属性约简理论进行特征再降维,最终得到可以有效表示文档的特征集。利用公用标准数据集Reuters21578进行仿真实验,结果表明此降维方法是有效的。

其他文献

CT检查的辐射剂量及其对策

期刊

辐射剂量CT检查剂量负担辐射危险照射剂量辐射危害医疗照射放射防护放射剂量管电压

基于内容相似性的文本集主题描述模型

为了实现基于内容的文本集主题描述,本研究提出了一种新的文本集表示模型。该方法将文本中项的频率、项的共现频率以及它们在文本集中的分布情况有机结合,构造了一种新的文本

会议

相似性真实文本主题描述相似度度量方法文本内容频率分布情况表示模型数据集实验构造

基于全信息自然语言理解和多Agent的短文本倾向分类

本研究在“全信息自然语言理解”理论的基础上,运用多Agent技术研究实现了面向多领域的短文本倾向分类系统。针对特定领域,利用包含语法、语义、语用信息的领域全信息知识库,

会议

全信息自然语言理解文本倾向语用信息系统验证分类系统分类模块知识库多领域运用语义语法实验潜力模式理论技术基础

汉语句子骨架成分识别

本文提出了一种利用统计学习算法进行汉语句子骨架成分识别的方法。骨架成分识别基于短句进行,包括主语、核心动词短语、宾语等。骨架成分的单位是基本短语。利用IOB模型编码

会议

建国三十年来我所中草药的研究概况

中草药是祖国医药伟大宝库的重要组成部分。运用近代科学知识和方法来研究中草药的有效成分是发掘整理提高祖国医药遗产不可缺少的重要内容。这不仅能从中草药中寻找更多防

期刊

中草药我所朱任宏中草药有效成分高怡生曾广方赵承嘏祖国医药发掘整理合成化学

基于HowNet的句子褒贬倾向性计算

文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。本研究以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算

会议

文本数据语义相似语法分析语义识别算法理论

基于语义相似度的汉语未登录动词语义框架识别

动词语义框架识别在半监督语义角色标注方法中是一个关键的步骤,本文提出了一种基于语义相似度的未登录动词语义框架识别方法。该方法首先计算未登录动词与已登录动词的语义

会议

语义相似度汉语动词语义框架语义角色标注识别方法标注方法正确率元框架半监督系统实验匹配计算

文本网络表示研究

文本表示是文本信息处理的基础问题，目前常用的文本表示模型没有考虑文本中词汇间的关系,在表示文本时损失了大量的文本结构信息,而这些文本结构信息对于理解文本是至关重要的

会议

文本结构语义网络文本表示结构信息表示方法空间模型词汇网络语法网络信息处理文本分类基础问题表示模型应用向量实验能力

结合泛逻辑学的词语搭配研究

计算机语料库的发展为词语搭配研究提供了新的方法,本文在介绍词语搭配中常用的三种统计方法的基础上,重点提出一种与泛逻辑学相结合的方法,并用Matlab软件实现词语的搭配程

会议

泛逻辑学统计方法词语搭配实验比较软件实现语料库可靠性计算机证明基础度量程度

美国控制吸烟的策略及成效

期刊

吸烟率青少年吸烟烟草工业标化死亡率禁止吸烟肺癌死亡率公共卫生吸烟与健康总开支吸烟人数

一种基于模式聚合和粗集的文本特征降维方法

与本文相关的学术论文