论文部分内容阅读
分解机作为一种监督式学习方法,在线性回归模型的基础上,增加了二阶的特征交互。尽管相比多项式回归等传统模型分解机已十分出色,然而由于并非所有特征交互的价值都是相等的,其对所有特征交互的一视同仁对模型的表达能力造成了很大的限制。举个例子,一些不太重要的特征交互对预测结果非但没有太多贡献,反而可能引入噪声从而降低模型的整体性能。在本文的研究工作里,我们通过区分不同特征交互重要性的差异来提升原始分解机模型的表达能力。我们提出了一个改进后的新模型“注意力分解机”(Attentional Factorization Machine,简称AFM),其通过注意力神经网络从数据中自动学习每个特征交互的重要性。进而,我们还提出名为“深层注意力分解机”(DAFM)的变体,其在AFM的基础上增加了额外的全连接层,从而在一定程度上引入了对高阶特征交互的捕捉和利用能力。两个公开数据集上的大量实验充分证明了AFM和DAFM的有效性。经实验分析,AFM在回归任务上比传统分解机平均提高了约8.5%,并以更简单的结构和更少的网络参数,超越了当前顶尖的深度学习方法Wide&Deep[1]和DeepCross121,相关研究成果已收录于IJCAI-2017。在分类任务上,注意力机制的加入同样带来了平均8.5%的提高并超越了Wide&Deep和DeepCross;而DAFM由于在利用高阶特征交互上的优势,在部分数据集上相比AFM还取得了进一步提升。