词袋模型和TF-IDF在文本分类中的比较研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ironfeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电商市场日益完善,网络购物成为更多人的消费方式,用户在电商平台上保留了大量的产品评论信息,通过人工对文本评论情感分类任务愈加艰巨,文本情感的自动分类作为自然语言处理技术的重要一门,近年来受到各界的广泛关注.本文首先对京东网页上爬取的某商品评论文本做预处理,重点研究词袋模型和TF-IDF两种文本特征选择方法下不同文本分类算法的分类效果,研究结果表明TF-IDF下的文本分类效果显著优于词袋模型.
其他文献
智慧交通信号灯控制方法的研究,在道路安全,节能减排,城市规划等方面都有着重要意义.本控制方法是利用实时道路车辆数据,自适应的控制交通灯的红绿灯持续时长.通过对各个方向的车流量的实时检测,实时反馈,将数据进行比较、运算来实现对红绿灯时间的自动调整,达到有效控制车流量,减少车辆等待红绿灯时间的目的,进而实现节能减排,增强道路安全,提高市民的城市生活幸福指数.并通过模拟仿真证实在各个方向车流量不均匀的路口,该控制方法较传统红绿灯对于车流量控制有了较大改善,对等待红绿灯的时间有了大幅减少.
期刊
在"万物智联"和"智能制造"迅猛发展的大背景下,人民对图像成像技术的需求也在不断增加。但在对图像的获取、处理、压缩过程中,都会有概率性的造成图像失真的情况,那么如何在解决图像失真的同时确保图像的质量成了社会的难题。在这样的时代背景下,图像质量评估方法成了我国图像处理技术的重点研究领域。该文详细介绍了图像失真的不同类型和图像质量评估的方法和体系,从主观评价和客观评价两种方法对产生的自然图像进行了质量
本文主要探究Web技术下计算机应用考试系统设计措施.研究过程中,以计算机应用考试系统性能分析为切入点,分析计算机应用考试系统需具备和易性与安全性、有效性与稳定性性能,以此为研究基础,结合系统设计,分析系统具体实现,以期为相关工作者提供有益借鉴.
该文利用单片机技术研究一种垃圾分类系统,使人们知道垃圾应当如何归类,也从强制的手段提醒人们分类垃圾.在单片机识别到垃圾种类之后,可以通过语音输出模块提醒垃圾是哪一种垃圾,同时可以有单片机控制几号垃圾桶打开,用户可以将垃圾放进垃圾桶内完成垃圾的智能分类,最终实现垃圾的智能分类,达到保护和净化环境的作用.
本次设计产品解决了实体店彩民购票出现的一系列问题,并且提升了彩民多方面的购彩体验,如可针对虚拟键盘投注、兑奖以及走势图的观看进行分析等.合理增添虚拟摇奖器的模拟摇奖服务,为用户提供更为简易、方便的操作,省时省力,满足彩民实际需求,达到便民生活的目的.
安全运维管理是指对生产活动中的危险因素和事故进行识别、分析和评估,并采取相应的措施来防止或控制事故发生的过程管理.随着我国经济的快速发展,社会不断进步,人们生活水平的提高,以及对自身的健康意识的增强,使得安全运维管理工作变得越来越重要.本文围绕“安全运维管理体系建设分析”进行阐述.
图书馆作为公共资源,如何安全有效地开展图书馆安防工作,成了各大图书馆的普遍研究问题.该文着重展示了该系统的功能模块,探讨了实际使用中遇到的主要问题,列举了相应的解决措施,并对未来的工作进行了展望.该系统实现了入馆预约系统、门禁系统与图书馆借阅系统的三方自动对接,既简化了读者入馆预约的操作流程,也减少了工作人员不必要的人工检查工作.
针对两种长度相同构型不同的七自由度模块化机械臂,研究其工作范围的空间优化问题.首先运用了DH法则进行手臂结构建模,得到了正运动学模型并分析了位姿变换矩阵;在模拟仿真软件的基础上,构造了双臂的结构,利用蒙特卡罗方法求解了工作空间,并利用软件绘制了两种手臂构型的三维工作空间;最后利用数据指标对比分析两种手臂构型的工作空间以及结构效率,比较了两种机械臂构形的差异,获得最优构型,为进一步研究机械手最优构型以及优化工作空间奠定了基础.
文本分类问题是自然语言处理中的重要任务.本文将机器学习中的朴素贝叶斯模型以及Softmax回归应用于自动文本分类中,在清华新闻分类语料数据集上实现了基于多项分布与类条件分布假设实现了朴素贝叶斯模型,并使用BOOL、TF、IDF、TF-IDF四种特征权重训练了Softmax回归模型.最后,将两种模型在训练集与测试集上的性能进行对比.