基于多因素特征选择与AFOA/K-means的新闻热点发现方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:NickFlanders
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】研究新闻文本的特征降维方法及聚类算法,以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法,引入符号、词性、位置及长度4个特征加权,实现多因素特征选择。从编码方式、适应度函数、自适应步长及群体适应度方差这4方面构造改进果蝇优化算法(AmelioratedFruitFly Optimization Algorithm, AFOA),利用AFOA优选K-means初始聚类中心,实现优化后的K-means热点话题发现。采用多因素特征选择识别热点话题,利用TOPSIS获得热点话题排名。【结果】相关实验表明,多因素特征选择及AFOA/K-means算法分别显著提高了聚类效果,验证了所提方法整体有效性。【局限】仅适用于中文新闻文本。【结论】本文方法能够为中文新闻热点发现方法研究提供一条新思路。
其他文献
引言:在当前以工业为首的多个领域中,数据采集系统发挥重要作用,需要通过对信号的有效处理,实现对信号的高效应用,让控制系统能够发出正确的指令。信号处理与数据传输两个系
同波束VLBI技术是解决月球轨道交会对接地面高精度引导的重要手段.传统的多频点同波束VLBI实时解算算法成功解算差分相位整周模糊度的概率较低,而事后统计修正求解整周模糊度
目的探讨保留颈椎后部棘突肌肉韧带复合体的颈椎后路单开门椎管成形术在维持颈椎的稳定性、减少颈椎疾患术后轴性症状发生中的应用价值。方法选择脊髓型颈椎病(CSM)19例,颈椎
中国意象说滥觞于周代至春秋战国时期,形成于汉代至魏晋南北朝,成熟于唐至明清时代;新时期以来的西部电影充分吸取了古代诗歌以及西部诗歌对意象的设置和运用,从而在影片中自
社交网络下的热点话题发现技术是当前舆情分析与预测的基础性研究问题。传统的基于聚类、分类的文本分析方法不适用于网络舆情挖掘,经典的PageRank算法仅考虑网页间的链接结
一些曾经是记者,甚至出色记者的人,后来转行去做其他工作了,他们的现状怎样?有什么人生感悟或想法可启迪同行?本文作者近期专访《大败局》《激荡三十年》《跌荡一百年》《吴
<正>"山寨"无疑是2008年人们最津津乐道的词语之一,从"山寨手机"到"山寨MP3",从"山寨明星"到"山寨熊猫",从"山寨春晚"到"山寨百家讲坛"等等。"山寨"一词频频出现在人们的生活
讲述了实现智能共享的一种机制,广域网内通过XMPP即时通讯协议实现智能手机、平板电脑、智能电视三者之间多媒体资源的共享并相互推送播放,即多屏互动。例如,智能手机将共享
为掌握土壤电阻率和土壤结构对大型变电站地网冲击接地电阻的影响,指导变电站地网防雷性能评估,采用接地分析软件CDEGS计算了均匀和水平分层两种土壤结构中地网的工频与冲击
中国农业博物馆征得一件青铜犁,该犁品像、锈色颇佳,从磨痕观察当属日常应用之生产工具。与近年出土的辽金铜犁有些类似,只是质地和外形略有差别。此犁是流散之物,目前尚未见
期刊