基于信息论的TF-IDF算法在文本分类中的应用研究

来源 :中国水运(下半月) | 被引量 : 0次 | 上传用户:CT1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统TF-IDF算法太过依赖词频,未考虑关键词在不同文本的不同分布对其权重影响的问题,提出一种基于信息论的TF-IDF特征选择和文本分类方法.首先,对文本进行分词以及去停用词的处理,然后使用Word2vec的skip-gram模型结合基于信息论的TF-IDF对处理后的文本进行特征选择,以更准确的表征文本,最后使用双向长短时记忆网络(BiLSTM)来进行访问上下文信息,得到文本分类的结果.结果表明,该方法与原始TF-IDF相比,分类的精确率、召回率和F1值都分别有所提升.
其他文献
讨论有可能在洋山港发生的超大型集装箱船失电事件的要点、背景、应急措施,及发生的潜在原因,以达知己知彼之目的,从而在失电事故发生时,可以尽可能有效地采取恰当措施,避免或减少包括财产在内的损失.
本文从多方面分析了“浅水效应”对船舶操纵性能的影响,结合笔者在上海港多年的船舶操纵经验,着重介绍了在上海港如何应对“浅水效应”对船舶操纵的影响,并给驾引人员提出了船舶操纵建议,控制船速,车让为主,舵让为辅,对于保证航行安全有着重要意义.
散货船由于货物、船员、环境等因素的影响,在运输过程中存在较多的安全运输隐患,影响散货船安全最主要的因素是人的因素,运输过程中未能提前做好安全措施,船舶演习未如实进行,导致紧急情况下无法有效施救.散货船舶船舶演习与实际装载货物不符这一现象广泛存在,致使散货船在运输过程中的危险系数较大.本文将从散货船入手,对散货船船舶演习与实际装载货物不符这一现象深入分析,并在日常监管工作基础上提出具有可行性的监管对策.
RCEP的成功签署,在关税减免、贸易便利化、产业升级和供应链整合以及跨境物流仓储经营管理等方面为协定成员国之间的商品流通和贸易提供了政策保障.本文将根据安徽省跨境电子商务的发展现状和存在问题,结合RCEP签订后的贸易新局面,提出相应的发展对策,以期安徽省跨境电商能在RCEP新态势下更好、更快地发展.
基于目前世界范围内频发的系泊断缆事故,结合港口船舶系靠泊作业的现状安全保障情况进行分析,并结合目前国内外系靠泊技术的创新研发应用情况,在充分吸收与借鉴主动减摇与运动补偿技术原理,依托并联平台研发了一种实现同时充当缆绳与护舷功能的智能系靠泊安全辅助系统方案,其在能够适应船舶六自由度运动、并监测船舶运动姿态和受力荷载数据,基于判断识别,通过随动与阻尼调节对船舶进行主动控制,从而实现自主控制船舶与码头间系泊作业过程.
传统的设计院已经建立了完善的信息化体系,在向工程公司转型升级中,需要建立业务财务一体化的管控系统.因此对工程公司的数字化的应用提出了新的要求.随着下一代移动通信技术、大数据、云计算、人工智能、区块链技术的发展为企业通过数字化转型,实现创新的运营模式与机制,为多元化、规模化发展赋能.本文从数字化转型技术路线,提出三条主线:业务对象数字化、业务流程数字化及业务规则数字化,并相应形成一套完整的方法来指导数字化业务和开展转型工作.
十九大报告指出,我国应加快生态文明体制改革.其中,壮大清洁能源产业是重要方法.天然气是重要的清洁能源,天然气交易中心的发展可以促进天然气资源的合理配置.分析我国天然气交易中心的现状发现,我国天然气交易中心仍面临困境.对此,梳理美国Henry Hub建设经验可知,天然气市场竞争性程度、管销分离、基础设施建设及市场监管四个方面应进一步发展.
以日常港湾边缘建造的防护工程海堤为对象,在规则波条件下,利用多孔介质模拟堤前植物带消浪,研究了植物护面下海堤的越浪过程.研究结果表明,植物护面能够提升海堤的消波能力,有效的降低过顶越浪量.本文设计的植物护面海堤随着坡度的增大,过顶越浪量呈现先增大后减小的趋势.随着植物带孔隙率的减小,消波效果逐渐变差.
本文结合物流配送中心、银行网点、车站选址等相关经验,根据沥青混凝土拌合站选址现状,总结得出影响沥青混凝土拌合站选址的七大主要因素,其中包括经济成本情况、设备情况、工程情况、料场情况、交通情况、自然环境、社会环境.并通过信度和效度检验方法来验证,从七大主要因素中提取出25个具体指标,并采用多准则层次分析法对各个指标的具体影响程度进行了定量分析,并根据分析结果建立了沥青混凝土拌合站选址模型.
为推进信息技术在水利水电工程建设征地移民安置监督评估工作中的应用,针对移民安置监督评估工作相关规范的要求,按照“面向服务、架构分层、适配多端”的设计思想构建系统,提供桌面端的数据管理与分析子系统、平板端的样本户信息采集App、手机端的样本户收支填报App等三类应用,服务于监督评估业务人员与移民样本户进行数据填报与查询统计,并在多个项目中进行了实践与优化,能有效规范样本户数据采集工作,提高工作效率,节约成本.