【摘 要】
:
短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题
【机 构】
:
中国科学院大学,中国科学院沈阳计算技术研究所
论文部分内容阅读
短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题的研究,本文提出了一种改进特征权重的短文本聚类算法.首先,定义多因子权重规则,基于词性和符号情感分析构造综合评估函数,结合词项和文本内容相关度进行特征词选择;接着,使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;最后,利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明,该算法有效提高了短文本聚类的准确率.
其他文献
为探讨网络流行语的发展规律,从模因论视角,以网络流行语“杀马特”为例,简述其的兴起和发展历程,剖析“杀马特”语言模因的复制周期及其基因型与表现型并重的传播方式,从文化背景
目的探讨急性左心衰竭合并呼吸衰竭早期应用无创机械通气的临床疗效。方法回顾性总结2012年5月至2016年2月期间我科收治的急性左心衰并呼吸衰竭患者64例,分为无创机械通气组(3
以山薯组培苗带腋芽茎段为外植体,以MS为基本培养基,探讨植物生长调节剂6-BA(0.5、1.0、2.0 mg/L)或TDZ(0.01、0.10、0.50、1.00、2.00、4.00 mg/L)、不同培养方式和活性炭对
目前,我国监狱内务会计制度在执行过程中还存在着很大的问题,极大影响了监狱工作的正常运行。因此,要进一步加强对监狱经济的财务管理,提高监狱的理财能力和会计工作效率,从
随着银行体制改革的不断深入,越来越多的金融产品走进市场,随之带来的是效益最大化和金融改革的进一步深化。如何顺应银行经营理念的转变,保证各项业务的顺利开展,预防可能产生的
为研究多孔材料的传热机理,采用实验测量验证理论模型的方式,利用瞬态热线法测量283~333 K范围内多孔保温材料挤塑式聚苯乙烯(XPS)的有效导热系数,并根据多孔材料各组成部分