文本预处理相关论文
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。......
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性......
该文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验......
Web2.0兴起让越来越多的网络使用者参与到社交网络中,他们热衷于进行资源分享,信息互换,互相之间的交流也越来越多。针对用户产生内容......
计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体包含了文本中重要的信息,命名实体识别是信息抽取研究中最有......
随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也带来了很多的负面影响,其中垃圾信息已成为人们日益关注的焦点问题。网......
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,......
专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术成果,对于知识产权的保护起着至关重要的作用。随着目前专利数量......
命名实体识别是目前自然语言处理研究的热点问题。MUC(Message Understanding Conferences)对命名实体的定义是:人们感兴趣的专有......
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访......
随着互联网的普及,网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长,人们很难在较短的时间内找到自己所......
随着互联网技术的快速发展和三网融合的大力推进,互联网上的视频数量呈海量增长,对于视频内容的分析和监管也越来越重要。传统对于敏......
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在......
文本聚类是文本数据挖掘的重要技术,它是一种非监督学习,可以由计算机自动进行,不需要人工干预。文本聚类通过比较文本的相似性,能......
随着数据库和Internet技术的发展与应用,大量的文本数据也随之产生。用户很难从这些文本数据中获取自己所需的有价值的信息。因此,文......
随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存......
随着科技的日新月异,信息技术在不断发展,可以说这个时代就是一个信息爆炸的时代.针对海量的信息处理,文本分类技术应运而生,这种......
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的......
数据预处理是数据驱动故障诊断的前提,为了更好地提取数据特征,针对地铁信号设备的故障记录提出一种基于词项和语义融合的文本自动......
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向。文本挖掘和信息检索的重要......
摘要:随着我国信息的不断膨胀,基于传统算法模式下的文本分类已经不能满足时代的需求,基于覆盖算法的构造性神经网络文本分类算法,可以......
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文......
伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特点,难以被直接使用。而论坛主题挖......
摘要:文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标......
随着数据分析与数据挖掘行业的兴起,职场中涌现出许多与大数据相关的职位。为了深入分析与预测大数据领域人才的需求现状以及未来......
随着信息社会的快速发展,网络数据正在指数级地增长,其中大部分都是文本数据.如何在有限的时间内完成大规模的文本数据挖掘分析,已......
文本分类是将一个待分类的集合映射到预先确定好的文本信息集合中去的过程。在国外,英文分类技术研究已经很成熟,由于中文构词比英......
社交网络已被广泛地用于通过基于互联网的文本消息和图像在公共领域表达意见。Twitter的情感分析为组织提供了实时监控与他们相关......
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程.然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示......
文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。......
文本预处理是文本挖掘的关键一步,建立与信息相匹配的标准语义集合能缩短信息处理的时间,提高信息的提取率和识别精度。根据国家交......
[目的]在科技情报资源快速增长的环境下,通过大文本数据分析快速发现研究主题,且进一步挖掘各研究主题下的技术发展与变化,对做出......
一、初识PHP PHP,一个嵌套的缩写名称,是超级文本预处理语言(PHP:Hypertext Preprocessor)的缩写。PHP是一种HTML内嵌式的语言,是一种......
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤......
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法.在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关鍵词提取算......
特征选择是文本分类中一种重要的文本预处理技术,它能够有效地提高分类器的精度和效率。文本分类中特征选择的关键是寻求有效的特征......
针对生物医学文献的数量急剧增长,人工从文献中获取所需要的信息已不能适应生物医学文献数量迅速生长的需要。利用StanfordParser等......
基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题......
随着互联网技术的飞速发展,如何有效地组织和管理就成了人们首先需要解决的问题。本文提供了一种基于网站内容对互联网站进行分类的......
为了帮助不同的英语学习者来选择适合自身的阅读文本,针对易读性公式在英文文本难度判定方面的不足,提出了基于向量空间模型进行英......
文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准......
在当今数据大爆炸时代,每天所产生的文本量数以亿计,急需整理分类,然而传统的数据分类的文本处理方式过于烦琐,在浩瀚的数据流中迅......
为了解决传统的文本极性智能判断方法判断结果准确率和召回率普遍较低的问题,基于改进深度学习算法研究一种新的文本极性智能判断......
当今世界选择飞机出行的人越来越多,如何提高航空安全是世界各大航空公司面临的首要话题。1970年由美国率先建立的航空安全事故报......
学位