【摘 要】
:
基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前
【机 构】
:
贵州大学计算机科学与技术学院,贵州大学贵州省公共大数据重点实验室
【基金项目】
:
国家自然科学基金项目“基于算法机制设计和平坦化技术的调度算法研究”(编号:61540050), 贵州省重大应用基础研究项目“大数据聚合机制及分析与交易机理研究”(编号:黔科合JZ字[2014]2001), 贵州省科技重大专项计划“智慧法院数据融合分析及集成应用示范”(编号:黔科合重大专项字[2017]3002)资助.
论文部分内容阅读
基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前的主题翻译模型存在不完善之处。论文通过将DMM(Dirichlet Multinomial Mixture)模型作为主题发现模型,结合统计机器翻译,提出了一种用于短文本关键词抽取的TTM_DMM(Topical Translation Model based on Dirichlet Multinomial Mixture)主题翻译模型。该模型利用DMM模型发现短文本主题信息,在主题约束下学习词语与关键词的翻译概率,从而提高短文本关键词抽取效果。在真实数据集上的实验结果表明,论文提出的TTM_DMM模型在评价指标Precious、Recall以及F-measure上优于现有的短文本关键词抽取方法。
其他文献
随着数据量的增加,Skyline查询在许多领域具有较高的实用价值。由于传统的Skyline算法在大数据情况下处理效率较低,论文研究了MapReduce编程框架下的Skyline查询算法,通过选
在地震勘探中,描述复杂介质的正演和反演问题通常包含许多反映介质不同特性的参数.同时获得这些参数对进行更准确的岩性描述和油藏预测具有重要的理论和现实意义.为了提高频
作为一种新兴产业,我国物流产业起步较晚,当前仍处在初级阶段,如果沿用渐进式升级的产业演化模式,将会持续滞后于物流产业先进国家.本文阐述了先进国家物流产业演化的一般过
应用虚拟现实技术建立虚拟工程训练车间,可辅助学生在工程训练之前初步了解机械制造过程。本文采用MultiGen Creator虚拟建模软件和Vega仿真软件对工程训练车间进行了建模和仿
首先根据智能配送系统的三大服务主体(即货主、运输人员和物流企业)与系统的交互行为进行分析,归纳总结出系统应提供的所有服务活动。通过引入设计结构矩阵模型(DSM),对系统应提