信息过滤的概念表示与算法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户：inc9649

【摘要】

：

随着信息的日益增长，个性化服务的需求越来越迫切，由于用户兴趣的不同和行为的差异，如何为不同的用户提供不同的服务成为一个具有挑战性的问题。实现个性化服务的首要问题是

【作者】

：

曾春

【机构】

：

清华大学

【出处】

：

清华大学

【发表日期】

：

2003年期

【关键词】

：

个性化服务用户服务信息检索服务信息过滤用户描述文件协作过滤推荐系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息的日益增长，个性化服务的需求越来越迫切，由于用户兴趣的不同和行为的差异，如何为不同的用户提供不同的服务成为一个具有挑战性的问题。实现个性化服务的首要问题是了解用户的需要，对个性化服务系统来说就是跟踪与学习用户的兴趣和行为。实现个性化服务的关键问题包括：用户描述文件的表达与更新、资源的表达、个性化推荐和个性化服务体系结构。论文比较了不同个性化服务系统的特点和实现方式，这是了解个性化服务技术的发展、存在的问题、以及进行研究的基础，同时对个性化服务系统的设计与实现具有指导作用。论文主要研究了用户兴趣的表达与信息过滤的算法问题。由于用户兴趣是多方面和动态变化的，因此，跟踪、学习和表达用户兴趣是一个最基本也是难以解决的问题。信息过滤技术可以分为基于内容的过滤技术和协作过滤技术，这些技术都已获得广泛的应用，但存在很多尚未解决的问题。论文的主要成果包括：1.围绕基于内容过滤的基本问题，论文首先对比研究了传统的特征选取方法和基于模型的特征选取方法，然后提出了一种新的用户兴趣的表达方法。这部分工作的创新点在于：利用领域分类模型上的概率分布表达了用户的兴趣，给出了相似性计算和用户兴趣更新的方法，并设计了一个基于内容过滤的个性化搜索算法。与矢量空间模型相比，概率模型更好地表达了用户的兴趣和变化。 2.针对协作过滤存在的两个问题：数据稀疏性和可扩展性，论文提出了新的相似性计算方法和实例选择方法，获得了较好的结果。为了克服数据的稀疏性问题，论文提出了两个新概念：用户权威性和资源流行性，分别反映用户评价的稳定性和资源受欢迎的程度。基于这两个概念，提出了基于用户和基于资源的两种混合相似性计算方法，使协作过滤算法的预测精度得到提高。然后，通过利用资源的分类特性，提出了基于分类的相似性计算方法，从整体上刻画了用户之间隐含的相似性。为了提高协作过滤算法的可扩展性，论文提出了一种实例选择方法，不仅缩小了近邻搜索的范围，还去掉了不相关的实例，从而提高了协作过滤算法的精度和效率。 3.为了对比研究不同学习信息源的有效性，进行了基于Web日志的用户群的发现的研究。论文对比了三个具有代表性的软聚类算法：FCM(FuzzyC-Means)算法、EM(ExpectationMaximization)算法和MCA(MatrixClusteringAlgorithm)算法，得出如下结论：在聚类性能上，MCA算法最好，FCM算法次之，EM算法最差；在聚类质量上，EM算法最好，MCA算法和FCM算法各有千秋，当数据维数较小时，MCA算法较好，当数据维数较大时，FCM算法较好。为了探索个性化服务系统的实现技术，论文设计并实现了一个个性化服务原型系统MyLibrary，提出了一个客户端和服务器端混合的体系结构，系统提供了个人信息、个人兴趣和个人书签的管理，并通过跟踪用户的行为来学习用户的兴趣，实现了个性化的搜索与推荐。

其他文献

在国土资源系统中异构空间数据共享交换技术的应用与研究

随着GIS的广泛应用,GIS产生了大量的空间数据。然而不同的GIS往往产生不同格式的空间数据,这些格式并不兼容。而且空间数据往往存放在不同地点,形成分布数据,这使得空间数据

学位

国土资源系统异构空间数据共享方法交换技术地理信息系统

面向开放式控制器的嵌入式图形系统的实现及相关应用

在数字信息技术和网络技术高速发展的今天,建立在其基础上的嵌入式系统已经得到了广泛的应用.而嵌入式Linux操作系统异军突起,成为了最有潜力的嵌入式操作系统.随着嵌入式系

学位

开放式控制器嵌入式LinuxGUI系统HMI系统NML

纸币清分系统研究与设计

纸币清分系统中纸币图像采集、分析和处理是核心技术.本论文主要围绕纸币图像采集、分析和处理涉及的软硬件设计与开发问题展开了深入的研究与讨论,提出了一套实验研究平台和

学位

纸币清分图像处理数字信号处理单片机

分布式智能异构数据集成支持系统的原型实现

随着计算机及网络技术的快速发展，各企业单位开发了大量的软硬件平台各异的应用系统，在各种应用系统下又积累了丰富的数据资源，如数据库中的结构化数据、文件系统中的非结构化数

学位

CORBA异构数据数据集成包装器目录服务

安全协议的形式化设计方法及应用研究

安全协议是建立在密码学基础上的网络协议,用于确保网络通信的安全可靠。近年来,随着网络需求的不断增长,安全协议的设计研究也逐步成为热点。但由于网络环境的复杂性,协议的

学位

安全协议形式化设计BSW逻辑公钥体制认证测试

基于时序学习的社交媒体流行度预测算法研究

“社交媒体”迅速发展，成为用户分享和传播消息的重要途径，也成为研究和预测社会群智行为的重要平台。社交媒体海量信息的快速产生，新消息传播程度严重不均的情况日趋严重。如果

学位

社交媒体流行度预测算法时序学习

Linux防火墙实现技术研究

因为具有开放源代码的巨大优势,Linux操作系统源代码的分析不仅具有教学意义,同时还具有科研意义。但目前的分析主要集中在存储管理、进程调度、文件系统及设备驱动等方面,对

学位

NetfilteriptablesNAT包过滤Linux防火墙

一种新的本体开发方法

目前，本体论(Ontology)和本体(ontology)是计算机领域研究的热点。这两个概念最早是哲学领域中的概念。本体论是研究客观事物存在的本质(being)及其内在关系的理论，在哲学中定

学位

程序开发本体论进化法描述语言

基于OCDMA技术的塑料光纤（POF）在局域网中应用的研究

塑料光纤以其连接方便,带宽高而被越来越广泛的应用于各种通信系统和电视网络中.本文提出一种采用塑料光纤(POF)作为传输介质的全新局域网构建方案.文章首先简要的介绍了光纤

学位

塑料光纤光正交码光码分多址局域网

基于受限汉语的业务规则管理系统

业务规则是定义和约束企业业务结构与业务行为的规定或规范。业务规则管理系统(BRMS)对业务规则进行表述、维护、部署和执行，将业务规则与应用代码相分离，从而实现了高效灵活地

学位

业务规则管理业务规则业务规则语言受限汉语业务规则管理

信息过滤的概念表示与算法研究

与本文相关的学术论文