基于有向关系图的自动多表拓展方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:alexhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文中,我们对Auto ML做了一个简单的介绍,着重研究了自动特征工程方面相关的算法,而对于关系型数据库的场景,缺少能够减少人工干预,直接将多个表格的数据和信息汇总到一张表上,输入机器学习模型的算法。本文从实际场景中常用的特征组合的例子出发,对现有的自动特征生成方法(深度特征合成算法)的局限性做了深入的研究和总结,认为现有的自动特征生成方法有以下不足:无法对类别特征的信息进行有效挖掘,对环形关系图的分解会丢失信息,特征生成过程中带来特征维度爆炸,无法有效挖掘时间窗口相关特征,缺乏对标签的利用,无法生成笛卡尔积特征等等。针对上述的不足,本文对多表场景下表格之间的关系做了分析,用有向关系图来描述表格之间的关系,并提出了一种基于有向关系图的多表拓展算法,从深度特征合成算法的以树结构的深度优先的特征合成路径,转变为以有向图结构的按层级优先的特征合成路径,并在此基础上,根据有向关系图来构建笛卡尔积合成特征。同时,加入了时间相关特征以及类别相关特征的生成方法。为了解决特征维度爆炸的问题,我们加入了启发式的通过集束搜索的方法来进行特征选择的方案。我们的方法在三个kaggle竞赛场景下的结果都有了显著的提升。
其他文献
以YBCO和GdBCO为代表的REBa2Cu3O7-σ(REBCO)超导涂层导体以其较高的有场载流特性和力学性能,在生物医学、交通运输、电力能源、信息通讯、航空航天以及国防安全等领域具有广阔
本文介绍了高炉渣的存在形式、研究方法、形成原理及高炉渣在制备微晶玻璃、处理水污染、农业上、生产建筑材料、高温相变材料、稀土直接合金化等领域的应用。以包钢含稀土高炉渣作为研究对象,采用直接合金化冶炼稀土钢,使稀土元素进入钢中达到直接合金化的目的。利用共存理论模型建立CaO-SiO _2-Al _2O _3-MgO-CaF _2-Ce _2O _3六元渣系。利用Matlab编程并采用Newton下山法
随着我国城镇化建设的推进和绿色低碳循环发展经济体系的建立,管网系统作为我国经济建设中的重要一环,其规模也在不断扩大,这给管道系统结构健康监控带来了巨大的挑战。近年
器件或电路的瞬态剂量率效应是指瞬态剂量率辐射下光电流的产生及其引起的一系列错误,包括器件和电路的扰动、翻转、闩锁甚至烧毁等问题。其中,电源的抗瞬态剂量率辐射能力会
固体氧化物燃料电池(SOFC)作为一种新型能源,具有能量转换效率高、对环境污染影响小、燃料来源丰富等独特的优点。然而,内部剧烈的化学反应和高达1000℃的工作温度导致SOFC在结构分析、控制器设计以及安全保障等方面存在一系列问题。因此如何提高SOFC的运行效率和稳定性一直是近年来的研究热点和难点。由于SOFC内完全密闭的环境和复杂的过程导致系统不可避免的会遭受各种不确定性和非线性,例如SOFC内部
本文利用位于海南、广西、广东等地区32个固定地震台站的背景噪声连续波形数据,基于波形互相关提取得到了Rayleigh波522 s的群速度频散曲线和611 s的相速度频散曲线,采用0.25°×0.25°的网格划分完成了面波层析成像。同时根据群速度和相速度频散曲线的联合反演获得了海南岛及周边区域下方25km深度的三维S波速度结构。基于反演获得的三维S波速度结构模型,正演计算得到了不同周期的Raylei
随着无线通信的发展,用户对通信质量的需求也不断提高。天线作为通信系统中重要器件,其性能影响着整个通信的质量。因此,提高天线的性能具有重要意义。圆极化天线由于其具有
高光谱图像提供了丰富的可以反映不同材料物理材质的光谱信息,可用于对地物精细分类。传统的分类方法在对高光谱图像分类过程中面临许多问题和挑战:如何解决小样本对高维数据的识别分类问题、如何对分类结果进一步优化、如何提高方法的执行效率等等。本论文充分利用高光谱图像的光谱信息和空间信息,在高光谱图像分类方法研究现状的基础上,研究了两种半监督高光谱分类方法,并使用多个高光谱数据集对提出方法进行了验证。1.为了
社交推荐算法通常在推荐系统中融合社交网络里的信任信息,进而建模社交影响力,最终使得用户的兴趣受到自身偏好和信任朋友偏好的共同影响,有效缓解了传统推荐算法中的数据稀
在国家积极推定智能化信息社会发展的大背景下,物联网的发展为其他产业的变革提供了技术支撑。从专业的角度讲,物联网是以互联网为前提进行拓展的网络,在系统中通过多种类型