基于不确定信息的个人信息搜索方法研究

来源 :天津理工大学 | 被引量 : 3次 | 上传用户:bojielinlinbojiebjbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的飞速发展,“信息爆炸”产生的危机日益殃及个人信息管理,信息的爆炸性增长使人们日常需要处理的信息量迅速增长。用户面对浩如烟海的信息世界,往往无法快速准确地找到自己想要的信息。用户在计算机中查找个人文件时,有时会因为记不住确切的文件名、存放位置而遇到困难,现有的基于关键词的桌面搜索工具不能帮助用户有效地解决这一问题。通过对人类记忆行为的分析,本文针对不同的信息搜索需求,提出了解决方法。本文主要贡献如下:(1)提出了基于日志的个人信息搜索框架和自动搜集用户访问日志的方法,并且该方法被应用于自动监控用户访问行为的个人信息搜索原型系统中,同时,将该原型系统在实验室一些人的电脑上运行一段时间后,得到了一个用于后续实验的数据集。(2)提出了基于同义词的个人信息搜索策略。通过对搜集的用户个人访问日志的分析,作者发现文件名中包含的词语之间具有同义词关系,进而提出了基于同义词的个人信息搜索策略。具体包括:提出了个人同义词概念模型,定义了个人文件、个人词典、词语偏好度、同义词图、文件关键词向量等基本概念,基于此模型,进一步提出了个人同义词词典与同义词图的增量构建方法,以及基于同义词的个人文件搜索策略。(3)提出了基于访问时间的个人信息搜索策略。在进一步分析日志的过程中,发现个人文件之间的引用关系与用户对文件的访问时间有一定关系,基于此提出了基于引用关系的个人信息搜索策略。具体包括:首先提出了一个基于访问时间关系的引用模型,提出并阐述了引用关系、桌面访问行为、顺序行为列表、顺序包含等基本概念,进而提出了基于重叠时间来识别引用关系的方法,以及基于引用关系的个人信息搜索策略。(4)对提出的方法进行了系统实现。基于本文提出的访问日志搜集方法、同义词搜索策略和文件引用关系识别方法,进行了系统实现,并将上述功能增加到实验室开发的个人信息管理原型系统中,通过实际的使用验证了本文所提方法的有效性。
其他文献
学位
异构无线网络融合是未来网络的一个重要发展趋势。在异构无线网络环境下,用户可以充分利用不同无线网络的技术优势,获得"Always Best Connection, ABC"。但是这些不同类型无
双层规划是一类具有两层递阶结构的系统优化问题,在数学规划领域得到蓬勃发展,成为运筹学一个分支,目前已成功应用于诸多领域中,如经济学、管理学、金融学、工程应用等。同时
时间序列数据广泛地存在于生产生活的各个方面,其反映了事物不易直接观察的内部状态。与传统分类有所不同,时间序列分类过程中各个属性之间都是有次序关系的,因此时间序列分类问
当前信息时代,伴随着信息的极大丰富,人们如何有效选择信息成为急需解决的问题。在这样的背景下,推荐系统因其高效性和智能性,而倍受学术界和工业界关注。传统的推荐算法虽然有不
聚类分析是一种非监督的机器学习方法。在数据集分布情况未知时,通常分析员会寻找一种合适的聚类算法将数据集人为地划分成若干类,从而揭示这些数据的真实分布。聚类分析是多元
多租户数据存储是软件及服务(SaaS,Software as a Service)中一个重要的研究内容。针对SaaS应用“单实例多租赁”的特点,人们提出了很多解决多租户数据存储问题的方法,其中基于关
移动轨迹数据记录着移动对象在真实世界的活动,而这些活动往往体现了该移动对象的意图、喜好和行为模式。通过对轨迹数据的挖掘,可以为用户提供各种形式的增值服务和工具,这
数字化时代,图像作为一种信息的载体,在人们的日常生活中扮演着越来越重要的角色。图像中包含有大量的信息,其中图像边缘即图像中的高频部分,是图像的重要特征,图像边缘检测是进行
调度问题是一类重要的组合优化问题,广泛应用于生产制造、现代物流、网络通信和计算机科学等领域。批处理机调度问题是经典调度问题的拓展。在批调度问题中,一台机器可以同时