论文部分内容阅读
近十几年来,因特网上的各种信息以呈指数级的速度增长,使得互联网用户想要快速找到其真正所需要的资料信息变得越来越困难。在海量因特网信息带来信息过载和信息迷失问题而人们对信息数据的需求却越来越专业化的时候,Web个性化服务技术应运而生,它的出现正好可以在一定的程度上解决因特网中信息的多样化与用户需求的专一化之间的予盾。以Google等为首的商业化互联网公司也提出,下一代互联网必将是智能化、个性化的。在Web个性化服务中,用户兴趣建模技术的好坏决定了最终建立的用户兴趣模型能否准确地反映用户兴趣,是个性化服务的关键环节,决定了系统提供个性化服务的质量。所以本文针对Web个性化服务中的用户兴趣智能建模技术进行了较为深入的研究,其主要贡献如下:首先,提出了一种用户兴趣点个数自动计算方法:在用户兴趣建模过程中,用户兴趣点的个数(亦即该用户对多少个类别的网页感兴趣)的自动确定相当重要,因为在用户建模过程中,这个参数不能采取让用户自行人为指定的方式。本文提出的基于“自动相似度阈值选择”的“自动用户兴趣点个数计算”方法可用于智能地解决用户兴趣点个数的确定问题;其次,为了自动并且较为准确地挖掘出用户兴趣点(也叫用户兴趣类),本文提出了一种改进的基于k-means算法、遗传算法和ISODATA算法的网页文本混合聚类算法:①在对传统的基于划分的k-means聚类算法和遗传算法进行全面、系统研究的基础上,本文首先结合这两种算法对用户浏览过的网页文本进行聚类分析,充分利用了这两种算法各自的优点来克服他们各自的缺点,以达到优势互补的目的;②在聚类算法的迭代过程中,本文进而借鉴了ISODATA算法的思想,对聚类簇创新性地采取了动态分裂、合并的操作,使改进后的混合聚类算法具有一定的自我调整能力,克服了传统的基于划分的聚类算法不能处理复杂形状聚类簇和对初始值选择敏感的问题;再次,利用已经获得的用户兴趣点的描述,本文对用户兴趣类再进行自底向上的层次聚类,得到用户兴趣分类树(ICT)。然后结合用户浏览网页时的动作行为所体现出来的网页兴趣度,计算了用户对每个兴趣类的兴趣度,最终建立了用户近期兴趣视图(CIV)作为用户兴趣模型;最后,本文对上述方法进行了实验验证。实验证明:自动用户兴趣点个数计算方法在大多数情况下能较为准确地计算出用户对多少个类的网页感兴趣,与我们人为事先预备的类的个数相比计算结果正确率达到了约70%;本文提出的改进混合聚类算法HCA在减少一定迭代次数的同时具有更好的聚类效果,在文本聚类算法的评价指标F-measure值上有较好的提高(与传统k-means算法相比平均提高了约28%,与传统遗传算法相比平均提高了约10%),能得到满意结果;并且,把本文新的用户兴趣建模技术应用在个性化搜索实验原型系统MyPSE中能较为真实、贴切地反应用户兴趣。本论文研究提出的用户兴趣建模技术,可以应用在用户个性化信息服务领域,包括个性化推荐、个性化搜索等。如果适当改变其建模规则,本用户兴趣建模技术还可应用在客户信息管理、电子商务、以及数据挖掘其他领域,具有一定的理论价值和实用价值。