【摘 要】
:
自动文本分类是一种管理和利用海量文本数字信息的有效手段。尽管文本分类技术已经取得了长足的发展,但由于文本分类具有高维性、高稀疏度等特点,文本分类的性能还不能满足人们
论文部分内容阅读
自动文本分类是一种管理和利用海量文本数字信息的有效手段。尽管文本分类技术已经取得了长足的发展,但由于文本分类具有高维性、高稀疏度等特点,文本分类的性能还不能满足人们的实际需求,还具有非常大的改进空间。针对文本分类的高维性和高稀疏度等特点,本文致力于研究最优的特征选择算法和紧凑的文本表示模型以缓解由于高维性和高稀疏度而产生的影响。通过分析、研究、对比优秀特征选择算法和传统文本表示模型,提出了基于二项假设检验的特征选择算法、综合度量特征重要度的特征选择算法、基于文本关键词的文本表示模型和基于特征项聚类的文本表示方法。实验表明,上述方法能够显著地提高文本分类的性能。由此可见,高维性和高稀疏度是妨碍文本分类性能的关键因素,高效的特征选择算法和紧凑的文本表示模型是提高文本分类性能的有效技术手段。
其他文献
中国历史发展中儒道释三家的思想融入到了我们文化的气质之中,历史上很多的画家、理论家都受这三家思想的影响。我们的文化中传承了其中讲求的阴阳和畅、道法自然、天人合一的
不论是从国家长远规划还是从教师教育改革的现实需要来看,教师教育课程的实践性取向都是十分明确的。当前我国本科师范院校学前教育专业课程设置存在专业理论课程比重大、专
从哲学层面理解新闻价值,新闻价值是客体的新闻要素、属性和功能对新闻主体所产生的实际效应,即新闻客体对新闻主体的作用和影响。新闻价值属性便是这种实际效应的外在表现形式
针对传统蚁群算法在多目标优化问题中容易陷入局部最优的缺点,提出一种采用直接学习机制的改进蚁群算法。该算法通过采用模拟蚂蚁用触角交流信息过程的直接通信学习机制,用以
目的:探讨超声弹性成像对乳腺小结节病灶性质的诊断价值。方法:选取2016年—2018年前来我院检查乳腺,并在彩色多普勒超声检查发现下乳腺小结节(直径0.5~1.0cm)的患者116例。
使用火焰开关型保护继电器,对原有的燃烧控制器点火系统进行改造,并利用温度传感器、温度控制器和双变频器比例联动组合实现对沥青拌合楼加热骨料温度的闭环PID控制。
<正>全自动玻璃应力检测仪于1987年获得国家发明专利(专利号:87101200.6),在中国建材工业协会平板玻璃举办的首届新技术推广应用交流评比中荣获优秀开发奖。2002年又获得中心
EBS控制系统为电控系统,除了包含原有的ABS及其相关功能之外,还增加了制动管理功能,其中制动管理功能是EBS制动系统最强大最先进的功能。
<正>中国汽车零部件工业是中国汽车工业的一个很重要的组成部分。2011年,中国汽车零部件工业的总产值约为2万亿元人民币,零部件进出口总额为832.16亿元美元(见表1),主要进出
DNA半保留复制时,DNA的两条链都能作为模板,同时合成出两条新的互补链。DNA分子的两条链是反向平行的,一条链的走向为5’→3’,另一条链为3’→5’。但是,所有已知DNA聚合酶的合成