论文部分内容阅读
推荐合适的住房给客户是房产领域中一个重要的课题,现今房产领域的研究主要集中在预防房产泡沫和房产信息检索上,鲜有针对该领域客户的推荐研究。由于购房客户行为具有决定周期长、低频等特点,Item-based和User-based的推荐算法在精确率和召回率上表现双低,无法构造一个有效的推荐系统。本文针对当前客户的特点,定义适合当前推荐的目标问题,使用泛化标签和迁移学习两种方式拓展样本,并将ID类属性使用Embedding方式泛化为向量,在使用FM时,提出了度量特征在FM对分类问题贡献度的指标,可在FM中用于特征选择。本文主要内容如下:(1)标签泛化和迁移学习样本拓展。此次推荐将目标定义为分类问题,该分类问题中正样本易于构建,而负样本能达到正样本的十倍以上,本文将负样本分类后按比例下采样,并泛化正样本标签来扩展正样本和抵消时序特征的影响。针对正样本不足的情况,使用迁移学习的方式,引入更多的样本,使模型能够学习更一般的特征。实验证明,使用标签泛化和迁移学习扩充样本后,模型AUC有提升。(2)ID类属性Embedding。客户ID类属性和楼盘ID类属性不能直接输入模型,本文将根据用户的行为数据,通过行为加权和时间衰减加权的方式,为客户构建楼盘的评分。并基于客户的评分矩阵,在Spark中使用ALS算法分解出客户向量表示和楼盘向量表示,使用得出的向量,来作为ID类属性的Embedding表达方式,并在Movielens数据集上验证Embedding后向量用于分类的效果。实验表明,Embedding后的属性特征在分类中能取得不错的效果。(3)提出了 FM模型特征重要度的评判指标。在线性模型中,可直接使用一阶向量的权重来进行特征上的选择,然而FM模型中涉及到二阶交叉特征,不能直接通过权重来评估特征的重要性。本文将提出一个在FM模型中评估特征对于分类贡献度的指标,该指标可以应用于FM特征选择。实验证明,该指标能够在FM模型中有效反应数据中不同特征对于当前分类的贡献。