频繁词集相关论文
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一.针对传统的热点话题发现方法在处理微博......
本文分析了k-mean算法的核心思想和基本步骤,借鉴了现有基于频繁词集的文本聚类初始中心确定方法,提出了一种面向大规模机构名称规......
会议
随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据......
在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对......
针对传统文本聚类忽略词与词之间的语义关系和数据高维的问题,提出了一种结合新概念分解和频繁词集的短文本聚类.该算法首先对短文......
当今社会,网络社交已经变成了主流。人们通过微博热点、微信、头条新闻等各种渠道可以获取各种文本资源。当网络上的文本越来越多......
针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法。该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初......
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并......
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重......
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提......
针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向......
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本......
在文本聚类算法研究领域中,面对大规模、高维的文本集合,如何建立精度高、可扩展的聚类算法一直是研究者们努力的方向。传统文本聚......
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和......
分析k-means算法的核心思想和基本步骤,借鉴现有基于频繁词集的文本聚类初始中心确定方法,提出一种面向大规模机构名称归一化处理......
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top......
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结......