基于语义关联和信息增益的TFIDF改进算法研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:asqbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。
其他文献
目的:分析青少年高原游泳训练血清HIF-1α、EPO以及红细胞、血红蛋白变化规律,研究个体差异,结合分析高原早期急性低氧暴露运动员血清HIF-1α、EPO的变化同高原训练后运动能
目的观察肺叶切除患者应用咪达唑仑联合地佐辛麻醉的临床效果。方法选取2015年2月至2016年7月收治的需进行肺叶切除术的患者164例,将其随机分为两组,每组各82例,记为Ⅰ、Ⅱ组
通过笔者参加唐钢几项重点工程的电气施工,归纳整理了工业建筑电气工程安装施工中存在的一些问题及解决措施,供参与电气工程施工人员参考。
针对沥青面层层间污染导致面层层间粘结不良的问题,采用壳牌路面设计软件BISAR3.0,选择市政道路典型的两层式半刚性基层沥青路面结构,根据弹簧柔量接触模型,对比分析基、面层
为评定某大跨斜拉桥的技术状况,以全桥外观检查为基础,结合恒载索力测试、混凝土专项检测、桥梁线形测量及拉索锈蚀断丝检测等专项检查。采用JTG/TH21—2011《公路桥梁技术状况