基于多语义复合表示模型的去离群点文本聚类

来源 :中国计量大学学报 | 被引量 : 0次 | 上传用户:cnreon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:将词语的多种语义信息融合,提出多语义复合文本表示模型和基于该模型的文本聚类算法.方法:首先,利用高斯混合模型构建词语的多语义空间,计算词语的不同语义概率权重;其次,运用所有的语义概率加权词嵌入复合形成文本向量;最后,借助文本向量的多语义结构识别文本数据中的离群点,通过剔除离群点提升K-means算法的聚类性能.结果:多语义复合文本向量能够有效地去除冗余,突出文本的语义结构特征;实验表明,与其他文本聚类算法相比,本文提出的算法能够提高约3.57% ~44.88% 的聚类性能.结论:基于多语义复合表示模型的去离群点文本聚类算法具有更优性能.
其他文献
目的:研究轴套内存在周向加工误差(正弦波纹、方波波纹、三角波纹和锯齿波纹)对静压气浮主轴稳态性能的影响.方法:采用有限元法求解稳态雷诺方程,得到主轴的承载能力和高度角.结果:验证了有限元法的准确性,分析了周向加工误差形状、幅值和周期,对静压气浮主轴气膜厚度、气体压力、承载能力和高度角的影响.结论:周向加工误差使气膜厚度和气体压力沿圆周方向大幅波动,变化特点由加工误差的形状、幅值和周期决定;锯齿波纹提升承载能力最显著,对高度角影响最小;承载能力和高度角随锯齿波纹幅值的增大而增大,且随正弦波纹、方波波纹和三角
目的:针对燃煤锅炉飞灰及炉渣(以下简称灰渣)含碳量难以在线测量的现状,研究采用神经网络结合数字图像处理技术对灰渣含碳量进行实时测量的方法和系统的组成。方法:构建一套图像采集系统用来实现实时灰渣图像的获取及清晰、稳定的传输,在计算机Windows操作系统上利用OpenCV视觉库对图像进行灰度化、阈值分割、中值滤波、图像通道分离、合并等操作,获取灰渣图像在RGB、YUV、HSI三个颜色空间下最佳颜色特
目的:研究不同机器学习算法在电力贫困用户识别中的应用效果.方法:文中基于3000余户电力用户一年的日用电量进行分析,提取合适的分类特征量并加以预处理.分别采用支持向量机、逻辑回归和神经网络三种分类方法进行二分类,分类目标为贫困用户和非贫困用户.结果:结果表明在对电力用户进行分类时,三种分类方法均具有一定局限性,但支持向量机分类模型体现了更高的正样本分类精准率.结论:支持向量机分类模型更加符合电力贫困用户的高精度识别要求.本研究为电力企业基于用电信息对电力用户进行贫困用户识别提供了参考,有利于节省人力资源,
目的:随着物联网技术发展,"智慧消防"将成为消防建设必不可少的一环。由于目前"智慧消防"建设尚未有统一的标准和规范,以致建设成果差异较大,因此需要提供符合当前需求的消防监督管理系统架构。方法:针对消防部门在消防数据来源单一及社会物联网服务单位缺乏统一监督管理等问题,基于目前的技术能力,提出一种基于智能物联网的消防监督管理系统。结果:提出一种符合目前"智慧消防"建设的消防监督管理系统的总体架构。通过
0前言rn应该看到,在一些电源管理应用中,需要精确地限制电流.无论是要保护电源(例如,中间电路电压需要过载保护以便能够可靠地为其他系统部件提供电能),还是在故障情况下保护可能由于过流而造成损坏的负载,都需要精确地限制电流.为此,为满足要求,本文介绍和阐述了一种添加灵活的限流功能之解决方案,即使用限流IC进行限流的方法.
期刊
目的:针对目前蚕茧种类智能化辨别程度低的问题,基于YOLO目标检测算法,结合蚕茧特征提出一种蚕茧种类识别算法(CD-YOLO)。方法:以黄斑茧、烂茧及上车茧为研究对象,对传统YOL-Ov3算法做出轻量化改进,采用C-means算法进行聚类,用于获得匹配蚕茧尺寸的先验框;通过合并BN层与卷积层参数减少运算量,删除不适合蚕茧尺度的特征图,以简化网络结构和加快蚕茧种类预测速度;更改损失函数的组成比例以及
目的:阐明金华市稻田和稻米重金属污染状况及潜在风险.方法:选取金华18个乡镇,采集土壤和稻米样品各275份,通过重金属含量测定结果进行潜在风险评估.结果:(1)金华采样区土壤中重金属污染率为铅(Pb)>铬(Cr)>镉(Cd),稻米中超标率为Cd>Cr>Pb;(2)土壤重金属生态风险和人体健康风险评估显示,Cd为中度污染,Cr和Pb均为轻度污染,Cd的皮肤接触和经口摄入的危害熵(HQ)和慢性危害指数(HI)均小于1,Cr和Pb吸入式途径的HQ和HI均显示大于1;(3)稻米重金属污染健康风险评估显示,重金属致
目的:本文研究含招聘滞后的企业高级人才队伍建模及其状态反馈镇定问题.方法:基于对各类员工转岗、招聘行为及其招聘时滞等因素的分析,研究企业高级人才队伍的动力学模型,进而采用Lyapunov-Krasovskii稳定性理论,研究企业高级人才队伍状态反馈镇定控制的条件.结果:建立了企业高级人才队伍的不确定时滞动力学模型,得到了企业员工闭环系统渐近稳定的时滞依赖条件.结论:仿真结果表明,本文设计的状态反馈控制方法可以使企业高级人才队伍时滞系统渐近稳定.
党的十九届六中全会于2021年11月8日至11日在北京召开.按照中央和国家机关行业协会商会党委的指示,中国建筑金属结构协会党支部于11月12日组织学习和传达十九届六中全会精神.协会党支部将学习六中全会精神作为一项重要的政治任务,上午组织收看了十九届六中全会新闻发布会,下午会议以线下和线上同步结合的形式召开,通读学习了十九届六中全会公报.
期刊
目的:构建用于酵母双杂交的褐飞虱cDNA文库以及pGBKT7-NlPIGM诱饵载体,筛选与NlPIGM具有相互作用的蛋白.方法:以褐飞虱全虫mRNA为起始模板,采用CloneMiner构建褐飞虱cD-NA文库并通过涂布鉴定文库库容量和滴度,通过两步法构建pGBKT7-NlPIGM诱饵载体并鉴定重组诱饵载体的自激活活性及毒性,然后通过mating法筛选与NlPIGM具有相互作用的蛋白.结果:构建的初级cD-NA文库总库容为1.04×108 CFU,次级cDNA文库滴度为3.4×107 CFU/mL,重组率为