文本向量化相关论文
针对现有方法存在的忽略语义信息及重复提取语义相近关键词等问题,提出了一种基于Bidirectional encoderrepresentationfromtransf......
我国资本市场上的投资者听得懂管理层的“言外之意”吗?上市公司的年报业绩说明会近年来成为投资者关注的焦点,已有研究表明上市公......
为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处......
增强子是短基因组区域,通常对远程编码区域发挥组织特异性调节作用.在原核和真核基因组中均可以观察到增强子,准确的识别增强子片......
本文选取2007-2015年中国A股上市公司年报中的管理层讨论与分析(MD&A)作为样本,考察MD&A的信息含量对公司未来股价同步性的影响.研......
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法.首先根......
创新持续性对于企业构建动态竞争优势具有重要意义,但如何激励企业持续创新仍是学界迫切希望解答的关键问题。基于高阶理论和认知视......
为解决微博网络暴力言论的自动识别和检测问题,基于微博语料进行了数据集构建,数据清洗等工作,提出一种改进的TFIDF(Term Frequenc......
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方......
在网络技术高速发展的背景下,信息纷乱繁杂,如何能够获得需要的文本信息,成了许多企业或组织关注的问题。该项目以采集的豆瓣电影......
在网络技术高速发展的背景下,信息纷乱繁杂,如何能够获得需要的文本信息,成了许多企业或组织关注的问题.该项目以采集的豆瓣电影评......
随着互联网技术的快速发展,网络中的文本数据急剧增加。海量的文本一方面蕴含了丰富的知识,另一方面也夹杂了庞大的冗余信息,这使得用......
本文以结构化查询语言(SQL)为研究对象,利用词袋(Bo W)模型和词频-逆文档频率(TF-IDF)算法两种方法进行SQL语句向量化。文本向量化......
随着信息技术的不断发展,各种SQL注入攻击工具层出不穷,攻击类型多变万化,SQL注入问题一直是网络安全的主要问题。因此,针对SQL注......
非计划事件的多样性、复杂性和人工判定的主观性都将增加非计划事件应急响应的时间,应急响应不及时可能会增加运营成本甚至造成人......
为用户推荐其感兴趣的新闻内容,已经成为了各大互联网新闻平台的首要技术目标。传统的新闻推荐方法主要是基于用户间的相似度以及......
随着互联网及多媒体技术的不断发展,新闻媒体成为人们了解事件发展的重要工具,新闻作为事件的载体,具有真实性、时效性、开放性、......
针对目前人民币汇率预测研究存在的数据源单一导致难以提升预测效果的问题,提出一种嵌入互联网舆情强度的预测技术,通过融合多方面......
随着城市的发展,城市人口的越来越多元化,这给城市治安带来了新的挑战,入室盗窃就是这个过程中不可调和的矛盾。我们以近几年城市......
对非结构化的文本进行挖掘,是大数据时代必备的能力之一。在金融科技中文本的数量和种类非常繁多,如客服中心来电总结、授信报告等......
近年来电子商务的发展极大带动了人们通过互联网购物的热情,从搜索发现、浏览商品详情、加到购物车、付款、收货到产生购物评论的......
由于大数据时代的来临,网络招聘形式占所有招聘形式的比重越来越大。本文通过对网络招聘信息数据进行中文分词和文本向量化处理后,......
SQL注入攻击是最常见的Web应用程序攻击手段,利用机器学习检测SQL注入攻击已成为一种趋势。以SQL语句为研究对象,结合SQL语句自身......
随着科技的发展以及互联网的普及,招聘行业的工作模式产生了翻天覆地的变化。招聘应聘的信息传播载体正在从过去的报纸电视迁移至......
随着互联网技术的快速发展,网络信息指数式增长,由于缺乏强有力的监督与约束,使得各种谣言迅速产生与急速扩散,尤其是各种虚假健康......
数据驱动指以数据作为主导因素的决策支持方法,从广义的角度看,所有的行为都是数据驱动,从狭义的角度看,数据驱动的对立面是经验驱......
针对目前人民币汇率预测研究存在的数据源单一难以提升预测效果的问题,提出一种嵌入互联网舆情强度的预测技术,其通过融合多方面数......
本文采用文本向量化的方法,对2007-2015年中国A股上市公司年报的管理层讨论与分析(MD&A)所披露的信息含量加以度量,研究其对股价崩......
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基......
随着计算机技术的飞速发展,互联网产业也进行了快速的变革,人们的生活从中得到了越来越多的便利,其中,自然语言处理领域的相关需求......
近年来计算科学飞速发展,尤其是计算机的计算能力大幅提升,机器学习和深度学习的应用越来越广泛,因此我们在自然语言处理领域的研......