【摘 要】
:
随着人们生产生活的网络化,日常生活中产生的数据呈爆炸式增长,每个城市每天都会产生数十亿条各种各样的数据,数据中包含着这个城市当前发展的规律以及走向,这背后蕴藏着巨大
论文部分内容阅读
随着人们生产生活的网络化,日常生活中产生的数据呈爆炸式增长,每个城市每天都会产生数十亿条各种各样的数据,数据中包含着这个城市当前发展的规律以及走向,这背后蕴藏着巨大的数据价值和商机。因此,对这些数据进行分析是十分必要的。本文通过对某长途客车公司的乘客大数据进行处理和分析,解决两方面问题:一方面,修正长客公司会员数据中中文地址歧义问题;另一方面,从会员群体中筛选出优质会员。针对会员中文地址歧义问题。本文提出采用深度学习的方法实现中文地址的特征提取,并基于余弦相似度对特征进行分类,以达到消歧的目的。该问题涉及主要研究内容包括:中文地址的预处理,autoencoder模型的设计和训练,基于余弦相似度的分类和消歧误差分析等。最后本文提出了“96-48-24-7-24-48-96”结构的含三层隐层的深度神经网络结构,成功的将80余万个歧义地址进行修正,准确率达到99.8%。针对筛选优质会员问题。本文首先采用传统的基于评价指标的方法筛选出了优质会员。然后,对于这些会员的相关信息进行数值化,并将其信息输入到搭建好的深度神经网络中学习,提取优质会员的抽象特征。最后,利用这些抽象的特征对全体会员进行重新筛选。本研究还通过对比不同结构深度网络的训练过程,得出本文提出的含三层隐层的深度神经网络较其他神经网络结构更加适合筛选优质会员的工作,其筛选出的优质会员消费贡献要大于其他网络结构筛选出的会员。本文将深度学习和大数据处理相结合,提出以数据特征为基础的文本消歧和推荐系统研究。基于深度学习提取的数据特征是对原始数据的近似无损压缩,既从数据维度上保证了计算的高效,又最大程度的保留了原始数据的信息,使得大量数据的处理成为可能。本文的研究同样具有推广性,可以用在电子商务,工业生产,医疗卫生等领域。
其他文献
植物NADPH氧化酶又被称为呼吸爆发氧化同源蛋白(respiratory burst oxidase homologue,RBOH),它是一类以胞质中的NADPH为电子供体,将氧催化生成活性氧(Reactive OxygenSpecies,R
三磷酸腺苷(ATP)充当着绝大多数细胞生物胞内直接能量供体,且在动、植物细胞胞外基质中以信号分子的角色发挥重要作用。细胞外ATP(eATP)作为信号分子,激发胞内诸如Ca2+、H2O2、NO
作为计算机视觉、模式识别与机器学习等领域一个非常活跃的研究方向,目标检测算法与人们的生活息息相关,对人类生产生活方式的都有着潜移默化的影响。近年来,目标检测算法发
地下水位及施肥管理是影响土壤团聚体孔隙变化的重要环境因子,本文以具有35年历史的红壤性水稻土为研究材料,选择两种地下水位(20 cm、80 cm)的3个长期施肥处理(高量有机肥:H
近年来,随着我国金融创新得到鼓励,金融市场不断发展,我国的影子银行规模在银行体系监管套利需求的驱动下经历了高速发展,这对我国货币政策调控带来了深远的影响。从其业务模
过硫酸盐高级氧化技术是水处理领域的一种新型高级氧化技术,它主要利用过硫酸盐(简写为PS)产生的硫酸根自由基(SO4-·)氧化有机物。然而,受常规条件下过硫酸盐只能产生极少硫酸
国学经典著作是继承我国优秀传统国学文化的宝贵精华,是传承我国五千年文明历史积淀遗留下来的珍贵瑰宝。国学经典近年来已经引起很大社会关注,中小学生通过诵读国学经典体会
维西堇菜是堇菜科堇菜属多年生低矮草本植物,该种植物具有极其独特的繁育系统,早春可形成开花受精的开放花(chasmogamous flowers,CH),晚春至秋季可形成闭花受精的闭锁花(cleist
生物医用材料最大的难点是生物相容性,而组织工程用水凝胶提供了一个高度溶胀的三维网络环境,它和生物体的组成极其类似,这使得水凝胶在生物医用材料领域得到了空前的发展。
随着能源消耗量的急剧增加和人们对新能源不断的开发利用,空气源热泵技术因节能、方便和投资少等优点而被广泛应用,利用空气源热泵技术进行低温地板辐射采暖可以解决供暖领域