【摘 要】
:
现有主题建模方法难以对复杂的文本信息进行有效的表示和利用,导致无法提取深层次的语义信息。特别是短文本数据由于存在特征稀疏、多歧义等特点,目前也没有针对短文本的主题建模方法。因此,本文从语义融合与语义拓展两个角度出发,提出了基于语义信息融合与语义拓展的文本主题建模方法,并通过实验验证了本文提出方法的合理性。本文的具体工作以及获得的成果包括:(1)对传统主题建模方法的研究。本文首先总结了传统主题建模方
论文部分内容阅读
现有主题建模方法难以对复杂的文本信息进行有效的表示和利用,导致无法提取深层次的语义信息。特别是短文本数据由于存在特征稀疏、多歧义等特点,目前也没有针对短文本的主题建模方法。因此,本文从语义融合与语义拓展两个角度出发,提出了基于语义信息融合与语义拓展的文本主题建模方法,并通过实验验证了本文提出方法的合理性。本文的具体工作以及获得的成果包括:(1)对传统主题建模方法的研究。本文首先总结了传统主题建模方法的研究现状、发展趋势及当前面临的问题。并且重点对Word2vec、LDA 模型(Latent Dirichlet Allocation,LDA)以及神经网络等模型的优缺点以及使用场景进行了详细分析,在此基础上提出通过“语义拓展”和“语义融合”两个角度对主题模型进行优化的思路。(2)提出一种基于语义信息融合的主题建模方法——B-LDA模型。该方法的主要思路是通过在LDA模型的初始化过程引入先验知识来对模型进行重新表达,构建基于BERT的先验潜在狄利克雷模型。实验结果表明,B-LDA较LDA以及DMM等主题模型的性能平均提升了 10.5%和10.7%。(3)提出一种基于语义拓展的主题建模方法——W-LDA模型。该方法的主要思路是通过在LDA模型中引入Word2vec词向量表示方法,并结合语义相似度算法,实现主题的拓展。实验结果表明,性能相比于拓展前提高了 16.60%,证实了该模型的合理性与有效性。(4)设计与实现了一套短文本分类仿真系统,并进行了性能测试。该系统基于W-LDA与B-LDA两种主题建模方法,包含文本获取、文本预处理、主题词典构建以及文本分类等模块。仿真结果表明,本文提出的短文本分类算法在准确率相对于LSTM以及TF-IDF模型分别提升了 8.7%和4.46%。本文也对算法进行了横向比较,结果表明,拓展后的文本比拓展前的文本在分类准确率提高了 12.48%。进一步证明了本文提出的两个模型在实际应用中具有较高的使用价值。
其他文献
英语阅读是高中生英语学习很重要的一个环节,因此,为提高学生阅读质量,教师在英语阅读教学过程中,通过提问与学生交流、澄清认识以帮助学生加深文本理解。目前,国内的研究集
中国并未出现某些专家所言“性革命”,而呈现出的是“性演进”过程。近些年来, 我国的性演进过程正常发展,主流是积极良好的,但也存在一些值得关注的新课题。
随着无线通信技术的发展,各种新型通信标准不断演进并投入商用,以满足用户对于通信质量及速度日益增高的需求。对多种通信频段的兼容与支持已成为当今无线设备发展的重要趋势。而天线的工作带宽直接影响无线设备对多频段通信标准的兼容性。因此,近年来宽频带天线一直是国内外天线领域的研究热点。本文结合现代通信的发展趋势,对基于多谐振模式的宽频带天线展开研究。本文的主要工作及成果如下:1.将多模技术应用于折叠偶极子天
随着教育改革的不断深入,发展学生审美素养引起了教育界的广泛关注,而当前国民审美素养整体较弱,亟需为发展国民审美素养寻找合适路径。在国家大力弘扬传承优秀文化的背景下,统编本初中语文教材选编了大量经典古诗词,占整本教材语篇选择比例的51.7%,且初中生正处于审美素养发展的敏感阶段,因此语文古诗词成为了初中生审美素养培育的重要素材。本研究在对国内外研究现状及成果进行综述的基础上,解析了审美素养的内涵与构
沸腾而多彩的校园生活,对教育现象的叩问与沉思,教育者的良知与坚守,给广大教师提供了自我成长的可能。妹冢中学几年的实践证明:教育反思,既是一种教师自我成长的方式,也是促
马克思、恩格斯在《德意志意识形态》中明确指出“共同活动方式本身就是‘生产力’”这一思想,即分工与合作就是生产力。从“共同活动方式”这一新的理论视角出发,马克思对社
非经营性国有资产是指不投入生产经营,国家各机关、事业单位和社会团体使用的非营利性的国有资产,用于国家公共事务或社会公益事业等方面。资产管理工作是否系统有效关系着高
室外移动机器人定位与建图算法的研究一直是自主移动机器人研究领域中主要的课题。如何在复杂的室外场景下进行定位,如何在障碍物较多的场景下创建有效的障碍栅格地图便于移动机器人进行路径规划,一直是机器人研究的重点和难点。本论文在以道路间车位等区域工作的室外清扫机器人为研究对象,对基于3D激光的室外清扫机器人定位与建图算法展开研究。通过检测障碍物创建适于室外清扫场景的地图,结合3D激光雷达和GPS的优缺点进