词聚类相关论文
该文分为两部分,两部分都是对自然语言理解中的词聚类进行研究:第一部分是面向特定领域的词聚类研究,实现了K平均聚类和分层聚类算......
随着互联网的发展普及,越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策,同时分享自己的产品使用感受,这种......
从古至今,信息对于人类的生产生活等方方面面都是非常重要的,特别是对于处于信息时代的我们更是如此。随着互联网技术的飞速发展,......
词的分类问题是语言学和自然语言处理中十分重要的研究问题。由一些语义相近的词组成的词类(或词聚簇)可以看成是纷繁的个别词现象......
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题......
[目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以......
网络热点话题提取是网络舆情分析的重要手段,已成为信息检索领域研究的热点内容之一.传统聚类方法因其聚类结果不允许相交等因素,......
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关......
利用语义、语法等语言知识,建立一种分层句法分析统计模型,并进行句法分析实验。研究结果表明:该模型具有规则和统计相结合的特点,且在......
为了改善信息检索系统的人机交互效率 ,提出一种基于图符基元组合与联想的智能信息查询技术 ,研究了图形符号基元选取的准则以及汉......
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中。词聚类算法基于信息熵的理论,利用......
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具......
本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信......
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexit......
为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、......
汉语科技词系统是科技词汇知识深层次组织与应用服务工具的集成体系。文章首先概述了词系统的内涵,然后总结了三年来在词汇自动......
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将......
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题......
讨论了几种词聚类的方法以及词聚类方法的性能准则,着重论述了模糊认识图应用于词聚类。并将这些词聚类方法应用于一个汉文词语集的......
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由......
随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势。针对大数据环境下网络评论文本空间......
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。以中文专利为研究对象,针对专利文本的特点,将关键词......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
期刊
随着信息技术的发展与社会信息化进程的加快,数字化的信息呈爆炸式的增长,已经远远超出了人类的理解与概括能力。利用计算机从大量......
高通量测序技术的应用,越来越多的生物分子实验成果和临床医学的成果以文本的形式发表,使得该领域产生了海量的生物医学文献。这些......
针对维吾尔语命名实体识别中存在的语义信息欠缺及其数据稀疏等问题,提出一种基于深度神经网络的维吾尔语命名实体识别方法。基于B......
数字化保护是目前保护文物的重要方式,在数字化过程会产生大量的信息数据,这些数据对文物领域信息的检索方式提出了挑战。构建一部......
随着信息技术的发展,文本信息呈几何级数不断增长,人们已经被淹没在信息海洋中。如何有效的组织、管理和利用这些文本信息,并快速......
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验。研究结果表明:......
利用语义、语法等语言知识,对中心词驱动的句法分析模型规则进行分解和修改,结合分词、词性标注进行句法分析,提出一种可同时考虑......
一个完整的检索系统包含四个子系统,即标引子系统,检索子系统,词表系统和用户-系统接口。其中,词表是检索系统的基础,是影响检索效率的......
随着电子商务的迅速发展,互联网上出现了各式各样的商品评论信息。为了实现海量商品评论信息的自动化智能化分析,商品评论分析技术......
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征......
基于数据稀疏问题是影响语言统计模型系统性能的主要问题,而基于词类的语言统计模型是解决这一问题的主要方法之一,利用相邻词语的......
本文提出一种新的基于LDA分析的词聚类算法,生成基于类的语言模型,利用LDA(Latent Dirichlet Allocation)分析词在不同主题上的分......