基于词嵌入文本聚类技术的研究与实现

被引量 : 3次 | 上传用户:out000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和电子媒体的繁荣,新闻文本数据的规模日益增长,而对新闻文本的组织、摘要和浏览会花费大量的时间。为了保证新闻的时效性,同时让读者方便地获取特定种类的新闻,并使新闻的阅读量最大化,需要对大规模的新闻文档集进行快速的分组。文本聚类技术做为一种非监督的机器学习方法,能够在没有人工标注的情况下,对未分类的文本进行快速的初步分组,因此具有一定的灵活性和较高的自动化处理能力,故而使用文本聚类技术可以对大规模的新闻文本集进行有效地组织、摘要和导航。然而,传统的基于词袋模型(Bag of Words)的文本聚类方法可以根据词频统计信息等特征对文本中词性进行加权,区别特征贡献度,但无法捕捉文本中词汇的语义关系;基于主题模型的文本聚类方法可以捕捉到新闻中词语与文章的共现,提取新闻的隐含主题,却不能捕捉词与词之间的共现关系;近年由Mikolov[1]等人提出的Skip-Gram方法通过统计词与上下文的共现,训练得到的词向量能够携带词汇间的语义关联,在很多机器学习任务中表现优秀,但却无法处理汉语中约20%的多义词、同义词和近义词对文本语义的影响;而且,流行的文本聚类方法大都在词语、短语这样短文本上进行聚类是表现较好,却无法有效在新闻这样的长文本上进行聚类。本文提出一个新的新闻文本聚类方法TDE-DC(Topic Document Embedding based Document Clustering),通过结合Skip-Gram模型、主题模型和TF-IDF加权方法的优点,克服各模型单独使用时的缺陷来获得更好的新闻长文本聚类效果。TDE-DC文本聚类方法主要完成了如下工作:1)使用词汇和词汇所在文本的隐含主题一起作为输入,通过Skip-Gram模型对上下文(Context)中的词汇进行预测,从而得到同时携带词汇间隐含语义关系和隐含主题的主题词向量(Topic Word Embedding),即获得了高质量的词向量表示,也有效地克服了汉语中高频出现的多义词、同义词及近义词对文本含义的特殊影响;2)以TF-IDF值为权重,将主题词向量进行加权线性累加得到新闻文本的向量表示,即主题文档向量(Topic Document Embedding),获得了一种低维度的文本向量表示,有效地对长文本的向量表示进行了降维。3)使用主题文档向量之间的余弦距离最为文本的相似度函数,并利用传统的聚类方法对新闻长文本向量进行聚类。实验表明,使用TDEDC模型对新闻长文本聚类能够获得较为满意的结果。
其他文献
主要对国家科技部下达的"大型油气田及煤层气开发"所属"海洋深水工程重大装备及配套工程技术"的国家科技重大专项配套专题之一,动力定位(DP)性能进行研究。根据深水工作船的
在现代化的交通社会中,车辆牌照的自动识别技术对智能化的交通系统尤为关键。本文利用静止的车牌图像,对其进行一系列图像字符处理。最后基于MATLAB实验验证了该算法可以比较
介绍了水电解制氢和天然气重整制氢技术的原理及其工艺流程。通过综合比较与技术分析,指出天然气重整制氢工艺在生产成本方面有较大优势,且在粉末冶金企业中已有成功应用的先
自明中期到清中期,商品生产和商品流通极为发达的江南,是福建商帮经营活动的重要地区,无论苏州、杭州、上海等大城市,还是乍浦、双林等市镇,都活跃着福建商人。福建各府商帮
目的调查听障大学生的人际关系的状况,寻求提高人际交往能力的方法。方法采用问卷调查的方法,对天津理工大学聋人工学院的151名学生和天津理工大学计算机学院的100名学生进行
<正>当下"非遗"语境中的"文化空间"作为非物质文化遗产的一个基本类别,并定义为"定期举行传统文化活动或集中展现传统文化表现形式的场所,兼具空间性和时间性"。突出了特定的
在经济全球化的背景下,伴随企业社会责任运动也在全球范围内的展开,企业社会责任成为我国中小型制造业企业进入国际市场和实现企业可持续发展所无法回避的问题。文章在简要论
为探明人参细胞悬浮过程中植物生长调节剂对细胞生长和皂苷合成的影响,调查IBA、NAA、2,4-D单独使用及IBA与BA和IBA与KT混合使用的效果,结果表明,在2,4-D处理中细胞生物量虽
祥子悲剧是一个努力向上的"人"最终被毁灭的悲剧。祥子个人身上所体现的人生弱点固然是一个重要原因,但恶劣的社会环境才是最根本的主因。城市文化颠覆了既往农村文明的生活
生态可持续发展模式能够从根本上克服目前城市发展中的一系列局限性,从“面、线、点”的有机组合,以城市带动农村,农村促进城市,有利于大大加速城镇化和工业化进程,促进城乡