论文部分内容阅读
随着互联网的迅速发展,网页广告也得到了快速的发展。与传统媒体广告相比,网页广告能通过多媒体方式进行全天候、全球性的展示,具有成本低、互动性强等特点。网页广告越来越受到广告商的青睐,并成为许多学者研究的对象。近几年,网页广告不论在商业应用还是研究领域都取得了极大的发展。然而随着网页广告爆炸式的投放,横幅广告点击率不断下降,网页广告的发展前景受到了诸多质疑。为了提高网页广告的服务效率,在特定目标网页的上下文中寻求当前用户和网页广告之间的“最佳匹配”是当前业界与学术界的一个研究焦点。本文将“最佳匹配”界定为:一方面目标网页和网页广告相关,另一方面网页广告在一定程度上符合用户的兴趣。在此界定下,针对网页广告加载过程中目标网页、用户兴趣和网页广告相互间不匹配的现状,本文从网页广告排序过程的形式化分析入手,提出了基于语义标注的方法来解决三个广告主体间的相关性匹配问题,并对整个网页广告加载过程进行了系统建模,进而对其中的关键算法进行了系统地分析与研究。研究的关键算法包括基于网页内容的网页广告排序算法和基于用户兴趣的网页广告重排算法。论文的主要工作和创新点主要体现在如下几个方面。首先,提出基于语义标注的方法解决网页广告加载过程中的广告主体间的相关性匹配问题。具体过程为:首先,对目标网页、用户兴趣和网页广告分别进行语义标注,并提取它们的语义特征;然后,提取目标网页和网页广告的相关性特征,按两者的相关度进行排序,得到首轮网页广告排序结果;最后,提取用户兴趣和网页广告的相关性特征,基于两者的相关度对首轮网页广告排序结果进行重排,得到最终的网页广告排序结果。基于语义标注的方法将广告主体间的相关性匹配问题转换成文本语义相关性排序问题,进而可以使用成熟的文本处理技术对问题进行分析和求解。其次,在网页广告排序过程形式化模型基础上,提出了基于网页内容的网页广告排序算法。在此阶段,主要是对目标网页和网页广告的相关性匹配问题进行研究。分两个步骤进行:首先,提取目标网页和网页广告的匹配特征。和前人方法不同的是,本文提出的方法除了使用传统的向量空间模型匹配特征和语义关联匹配特征外,还使用了新引入的统计匹配特征和潜在主题匹配特征;然后,基于多种匹配特征对网页广告进行排序。本文使用RSVM排序模型对基于网页内容的网页广告排序算法进行了学习,该排序模型能有效的融合各种匹配特征,并提高网页广告排序的性能。再次,提出了基于用户兴趣的网页广告重排算法,将网页广告的个性化推荐过程形式化为基于用户兴趣的网页广告重排问题。具体步骤为:首先,分析用户浏览行为和用户兴趣的关系,建立用户兴趣模型,本文使用簇兴趣模型表示用户兴趣,使用质心模型和高斯模型量化用户兴趣;然后,基于用户兴趣模型,通过Web日志挖掘对用户兴趣进行提取;最后,提取用户兴趣和网页广告的相关性特征,使用两者的相关度对基于网页内容的网页广告排序结果进行重排,得到最终的网页广告排序结果。使用重排技术可以有效地平衡目标网页内容、用户兴趣和网页广告之间的相关性匹配,为解决网页广告与其加载的上下文之间的相关性匹配问题找到了切实可行的解决方法。最后,依据本文提出的广告主体语义标注和网页广告排序的一整套方法,本文设计实现了一个基于语义的网页广告加载原型系统。该系统采用层次化的思路进行设计,并能有效和其他系统进行集成。综上所述,本文使用基于语义标注的方法对网页加载模型相关问题进行研究是自然语言处理技术在计算广告学中的一个有益尝试,有助于在深层次上实现目标网页、用户兴趣和网页广告的一致性,对于搜索引擎优化及互联网信息获取也有一定的意义。