文本预处理相关论文
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。......
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性......
文本分类在文本挖掘和文档管理中扮演着重要角色.在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能......
针对原始德温特专利信息内容表示粒度大,不能够满足对该数据直接进行专利统计分析的问题,本文提出了一种基于文本预处理的德温特专......
Web2.0兴起让越来越多的网络使用者参与到社交网络中,他们热衷于进行资源分享,信息互换,互相之间的交流也越来越多。针对用户产生内容......
随着计算机技术的快速发展和Internet的普及与应用,互联网上的电子文档信息急剧增加。面对如此海量的信息,人们迫切需要寻找一条能够......
计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有......
本文研究的重点是Web文本挖掘技术,文章以文本分类为切入点展开对文本挖掘技术的原理及应用的研究.首先,介绍了Web文本挖掘的理论......
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,......
专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术成果,对于知识产权的保护起着至关重要的作用。随着目前专利数量......
随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技......
命名实体识别是目前自然语言处理研究的热点问题。MUC(Message Understanding Conferences)对命名实体的定义是:人们感兴趣的专有......
随着互联网的普及,网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长,人们很难在较短的时间内找到自己所......
随着互联网技术的快速发展和三网融合的大力推进,互联网上的视频数量呈海量增长,对于视频内容的分析和监管也越来越重要。传统对于敏......
近年来,随着信息技术和通信网络的飞速发展,人们获取信息的方式从大量的物质介质转化为网络文档,这种发展给人们带来了方便的同时......
[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、......
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在......
在文本聚类中,聚类的最终结果应该是一棵树的形式.然而,随着互联网的普及,面对海量的电子文献,学科分枝的越来越细化,树的分枝粒度......
文本聚类是文本数据挖掘的重要技术,它是一种非监督学习,可以由计算机自动进行,不需要人工干预。文本聚类通过比较文本的相似性,能......
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的......
随着数据库和Internet技术的发展与应用,大量的文本数据也随之产生。用户很难从这些文本数据中获取自己所需的有价值的信息。因此,文......
随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存......
[目的 /意义]分析中国国内基于主题模型的科技文献主题发现及演化研究进展,以期为相关研究人员提供参考借鉴及研究思路。[方法 /过......
微博作为近年出现的一种新型网络媒体形式,已经成为网络舆论表达的重要方式之一,如何把微博热点话题发现出来,正确的引导网上舆论......
微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部......
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后......
随着科技的日新月异,信息技术在不断发展,可以说这个时代就是一个信息爆炸的时代.针对海量的信息处理,文本分类技术应运而生,这种......
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的......
数据预处理是数据驱动故障诊断的前提,为了更好地提取数据特征,针对地铁信号设备的故障记录提出一种基于词项和语义融合的文本自动......
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向。文本挖掘和信息检索的重要......
摘要:随着我国信息的不断膨胀,基于传统算法模式下的文本分类已经不能满足时代的需求,基于覆盖算法的构造性神经网络文本分类算法,可以......
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文......
伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特点,难以被直接使用。而论坛主题挖......
文本预处理是整个字符识别系统的重要组成部分.它的性能的优劣,对整个字符识别系统的识别率和识别速度至关重要.由于汉字印刷文稿版面......
摘要:文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标......
随着数据分析与数据挖掘行业的兴起,职场中涌现出许多与大数据相关的职位。为了深入分析与预测大数据领域人才的需求现状以及未来......
随着信息社会的快速发展,网络数据正在指数级地增长,其中大部分都是文本数据.如何在有限的时间内完成大规模的文本数据挖掘分析,已......
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程。在国外,英文分类技术研究已经很成熟,由于中文构词比英......
社交网络已被广泛地用于通过基于互联网的文本消息和图像在公共领域表达意见。Twitter的情感分析为组织提供了实时监控与他们相关......
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程.然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示......
文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。......
文本预处理是文本挖掘的关键一步,建立与信息相匹配的标准语义集合能缩短信息处理的时间,提高信息的提取率和识别精度。根据国家交......
[目的]在科技情报资源快速增长的环境下,通过大文本数据分析快速发现研究主题,且进一步挖掘各研究主题下的技术发展与变化,对做出......
K-means算法是数据挖掘中非常经典的算法。通过数据之间内在关联性将同类数据组合在一起,这对于大量混乱的数据进行资源整合具有非......
一、初识PHP PHP,一个嵌套的缩写名称,是超级文本预处理语言(PHP:Hypertext Preprocessor)的缩写。PHP是一种HTML内嵌式的语言,是一种......
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤......
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法.在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关鍵词提取算......