基于多种特征池化的中文文本分类算法

来源 :四川大学学报(自然科学版) | 被引量 : 0次 | 上传用户:gcsjsb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip—gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有
其他文献
汕头市两会期间,政协委员纷纷对发展物流业发表意见。张华绍委员在提出关于加快汕头现代物流业发展的建议时说,应由市政府牵头,政策研究、外贸、交通、海关、税务和银行等部门联
渔机工业是直接为捕捞、养殖生产第一线服务的,是水产事业的一个重要组成部分。目前我国渔机工业已有初步基础,制造与维修均具相当规模,但也存在一些突出的问题。
本文以具有破坏物料环流结构的粉碎机为例,详细分析了物料的粉碎能力和筛理效果所决定的粉碎机效率高低,也决定着饲料粉碎质量好坏的机理;并且阐述了保证锤片对物料的元支承
1979年6月的一天晚上,在美国佛罗伦萨市附近,有41条抹香鲸搁在海边沙滩上正奄奄一息。科学家们试图设法将这些鲸鱼拖回海里。但是,当他们在黎明时来到现场,只见其中最小的鲸长30
基于复合材料液体成型工艺(LCM)过程中存在树脂流动前沿出现半饱和区域的实验现象,以及对多孔纤维预制体中非饱和渗流机理的逐步研究,将填充过程视为流体在多孔介质中的流动,
浙江省普陀县塘头公社塘头大队是一个有五百二十五户渔民、以海洋捕捞为主的渔业大队。前些年,在林彪、“四人帮”极左路线的破坏下,生产亏本,社员收入下降,集体经济开支无计划,造
刺血疗法是一种针刺治疗方法,痛风是嘌呤代谢紊乱以及尿酸排泄减少所致的代谢性风湿病,临床上较为多发,本文从刺血疗法配合中药内服、刺血疗法配合针刺、刺血疗法配合温针灸
本文对饲料单筒蒸汽调质器的主要参数和结构的选择方法作了阐述,并明确了蒸汽和糖蜜添加系统的关键参数和注意事项更多还原
<正> 由襄樊市粮食局组织设计,于1985年建成投产的保康县粮食加工厂等级粉车间,几年来取得了可喜的成绩,主要技术经济指标如表1所示:
国际地质学界普遍认为21世纪是开发利用地下空间的世纪,随着我国地下空间工程数量的大幅增加,因权属关系不明而造成的地下空间产权纠纷接踵而至。当下地下空间分层开发是解决