【摘 要】
:
科技的日异月新催促着各行各业的蓬勃发展,互联网作为社会的领头羊,与各行各业无时无刻连接在一起。伴随在传输、基础设施、计算能力都获得快速提升的基石下,智能互联网也因此诞生。手机作为人与互联网的一个重要接口,每天都会在其上面留下大量的行为数据,这些数据维度极其丰富且具有较强时效性。在互联网业务场景中,如何对用户画像进行高效预测是目前各大公司研究的核心问题之一。传统的用户画像都是以人工打标签为主,其效率
论文部分内容阅读
科技的日异月新催促着各行各业的蓬勃发展,互联网作为社会的领头羊,与各行各业无时无刻连接在一起。伴随在传输、基础设施、计算能力都获得快速提升的基石下,智能互联网也因此诞生。手机作为人与互联网的一个重要接口,每天都会在其上面留下大量的行为数据,这些数据维度极其丰富且具有较强时效性。在互联网业务场景中,如何对用户画像进行高效预测是目前各大公司研究的核心问题之一。传统的用户画像都是以人工打标签为主,其效率极低,因此如何在大数据场景下,借助算法模型为用户画像打标是现如今的研究热门之一。但在高维且稀疏的特征数据下,利用传统的机器学习算法很难去挖取特征间的多层关系,并且相关特征需要人为借助业务逻辑进行构造,限制了与用户画像相关的下游应用。为了解决上述问题,本文在深度学习和注意力机制的基础上进行优化。首先对目前流行的Wide&Deep学习框架进行学习,研究该框架对高低阶特征如何进行组合学习,并对相关基础算法进行介绍;接着对数据中出现的序列信息进行研究,提出用Attention和BiLSTM的结合对用户的序列信息进行挖取;最后提出一种改进Deep FM的算法,对数据进行高低阶的组合,解决高维度稀疏的特征自主学习问题。主要内容如下:(1)对Wide&Deep框架及其变体进行研究并以其作为基模型。这种模型的整体思路是吸取浅层模型具有的记忆功能和深层模型的泛化功能,生成出联合模型去提高模型的准确性和功能的可扩展性。此模型框架针对不同业务需要作出不同的修改,因而为后续模型的优化提供了优化方向。(2)借助Attention BiLSTM提高对序列信息的挖取能力。自然语言处理对序列化数据具有很强的抽取特征能力,本文借助Attention BiLSTM用于序列化的挖取。将用户历史行为元素当作词语输入到BiLSTM进行序列化学习,保存每个cell的输出然后经过Attention网络进行学习,提高序列信息的提取。最后将Attention输出的向量当作用户历史行为信息的Embedding特征。(3)本文将借助手机应用数据进行用户画像的研究,提出一种改进Deep FM模型的算法,在原始的FM基础上加入Attention机制,利用Attention机制对类别特征进行显示特征组合权重学习,这样不仅可以提高模型的整体性能,还能提高模型的可解释性。而原来的Deep组件改用残差网络,使整体网络在没有增加参数量的情况下增强了特征组合能力,使模型达到更高的精度。
其他文献
随着集成电路产业的快速发展,物联网系统功耗大和电池续航时间不足的矛盾也越来越突显,成为低功耗应用开发亟需攻克的难点。太阳能电池作为绿色可再生能源中的典型代表,因其成本低、资源丰富且能量密度大而得到广泛应用。另外,负载直接连接到太阳能电池通常并不能高效率地捕获能量。能量采集器能匹配能量源的输出阻抗,使能量捕获效率最大化,达到最大功率点跟踪的目的,设计基于MPPT的能量采集器具有重要意义。本文分析了太
随着社会对智能产品依赖越来越强,其对产品的功能要求也越来越高。芯片作为产品设备中重要组成部分之一,目前主要面临着两大挑战,工艺技术无法继续往前和芯片无法兼备高性能及低功耗要求。而电压基准源作为芯片中模拟集成电路设计里的基础模块,与各个电路模块乃至电路的整体性能相辅相成,在电路中占据着重要位置。因此,设计一种高性能低功耗的电压基准源电路结构对今后的发展尤其重要。本论文设计了两种基准源电路,分别为全C
聚对苯二甲酸丁二醇酯(PBT)由于其自身优异的性能,被广泛应用于各行各业,但其回收利用率低,不符合现在低碳和环保的理念,因此研究易回收利用的高性能PBT复合材料一个非常具有研究价值的课题。类玻璃高分子(vitrimer)是一种具有动态交联网络结构的新型聚合物,在高温条件下,动态交联网络快速反应使网络的拓扑结构发生改变和重排,从而使得材料具有可重塑性和可再加工性能,这种性能使得vitrimer材料的
随着深度卷积神经网络(VGGNet、Res Net、Densenet等等)的不断发展,计算机在处理常见的粗粒度图像分类的效果已经越来越准确了,在大量的分类任务中甚至已经超过了人工的分类的精度,继而很多学者和研究人员逐渐地将研究的目光投向了细粒度图像分类任务。然而直接将这些深度神经网络用于细粒度图像的分类并不能得到很好的效果,主要是因为这些细粒度的图像之间是具有很多相同的地方,直接使用这些深度卷积神
语音是人类最基本、最重要、最快捷的信息交流传播方式。语音中不仅包含着说话者表达的内容,还包含着说话者丰富情感信息。随着大数据时代的到来,语音情感识别成为非常活跃的研究领域,在人机交互系统方面具有潜在的应用。语音情感识别作为人机交互系统的重要组成部分,其目的是通过直接的语音交流与机器形成情感互动。但是,由于情感的复杂多样性,语音情感识别是一项非常具有挑战性的工作。在语音情感识别研究中,研究主要内容是
随着经济全球化以及数字经济学的迅速崛起,推动了全球经济的快速发展。股票市场作为金融行业中最为重要的一部分,对经济的波动有着重要影响。股票价格涨跌的不确定性、难预测性和高回报高风险性,激起了众多学者的研究热潮,更受到了广大投资者的关注与追捧。如何提高股票涨跌预测的变化趋势成为众多学者与投资者最为关注的热点,因此,对金融趋势预测技术模型的研究与设计不仅具有深刻的理论意义,也具有非常重要的使用价值。由于
城市道路交通堵塞及事故的频发,给市民的交通出行和社会生产带来极大的困扰,尽管诸多的城市管理者对解决当前问题做了很多不同的尝试,但这些现象依然存在于各个城市中,且呈现上升趋势,如何在现有的交通设施基础下有效的提高城市道路的运行效率及管理能力是当前交通运输领域的主要难题。城市路网中无时无刻有网约车在运行,包含大量全面的城市交通时空信息,而且GPS数据具有可靠性高、数据量大等特点,采集到的数据通过无线网
长期以来,细粒度图像分类作为传统图像分类的一个细分方向,在现实世界的场景中有着广泛的实际应用需求。细粒度图像分类追求更加细致的类别划分,比如,输入一张鸟类的图像,可以对目标物体的具体子类别进行准确识别。显而易见的,细粒度图像分类相比传统意义上的图像分类提出了更高的要求。细粒度图像分类问题最大的挑战在于样本的类间差异小、类内差异大。为了解决这个问题,聚焦于近年来使用深度学习方法在细粒度图像分类问题上
目前人脸识别技术以及红外测温技术非常成熟,但对于人脸存在遮挡物的识别和口罩佩戴检查识别方面的应用场景,目前仍处于发展的阶段。目前在实际应用工程应用当中,面对复杂的室内外环境因素下,对人脸身份识别及配合红外非接触式测温装置的进行体温测量,仍存在一些关键技术问题,亟待科研人员和工程师共同解决:如对于人脸的关键点进行定位;判断人脸特征(如否佩戴好口罩)进行实时检测识别;在室内外进行非接触式测温精度控制和
随着移动智能终端的快速普及和物联网技术的快速发展,人们对于位置感知需求的应用急剧增加,定位服务作为移动互联网应用程序的一部分,深刻的影响着人们的出行的各个方面。近年来,随着室外定位技术的日渐成熟,总体净利率在逐年下降,而室内定位的需求却在不断增长,巨大的商业价值驱使人们更加关注室内定位技术的发展,其中,Wi-Fi(Wireless Fiedelity,无线保真)室内定位技术凭借基础设施部署广泛和终