LBSN中基于好友聚类的社交搜索系统设计与实现

来源 :东南大学 | 被引量 : 1次 | 上传用户:CPhoenixEx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线社交网络(OSNs-online social networks)的发展与普及给人们的日常生活带来了极大的便利,如今每天有多达数十亿的用户活跃在OSNs上,产生了大量的社交信息。渐渐地,人们将搜索的习惯从传统的网页搜索如谷歌、百度,转移到了 OSNs上来,社交搜索便应运而生。由于传统搜索方式有着查准率低,用户筛选时间长,搜索结果一致化等缺点,在用户个性化搜索的背景下,社交搜索依托于传统的搜索原理,结合用户的社交信息,可以产生个性化的搜索结果,提高搜索精度。总的来说,社交搜索是找正确的人(朋友、爱好相似的用户、领域专家等)为其精确快速的回答问题。随着基于位置的社交网络(LBSN-location-based social network)的兴起,在移动电话、平板电脑等移动设备和GPS、WiFi等移动技术的支持下,为社交搜索的移动化研究提供了理论依据。针对当前LBSN平台上社交搜索选取的社交特征不具代表性、搜索算法效率不高的现状,从Foursquare真实数据集中提取基于位置信息和联系人信息等多维特征,本文提出基于好友聚类的KNN搜索算法,设计基于倒排索引的搜索引擎,结合距离等因素使搜索结果更加精确、搜索速度得到提升。为使搜索结果更加精确,首先,在研究用户朋友的基础上,对朋友进行聚类。由于LBSN属于异构网络,数据集比较稀疏,通过聚类可以使数据更加稠密化,降低因数据稀疏导致的不利影响;其次,搜索算法的设计上,在考虑了传统社交影响力的基础上,增加了专业相关度和距离远近两个指标。综合搜索得分、社交得分和距离得分,通过线性回归的模型训练,使搜索结果更加精确客观。本文从Foursquare的真实数据集中,筛选出发生在纽约的数据。然后对四种搜索算法(本文提出的算法和三个对比算法)分别进行实验,通过对实验结果的对比和分析可以得出:(a)本文提出的搜索算法(FCSD-KNN)有效地提高了社交搜索的精度,相较于其他三种典型的对比算法取得了更好的效果;(b)通过对其他三种搜索算法(FCS-KNN、FC-KNN和F-KNN)的比较,表明本文提出的两个方法是有利于提高搜索精度的,一个是聚类用户的好友;一个是综合考虑了搜索得分、社交得分和距离得分。最后采用B/S架构,设计并实现基于好友聚类的社交搜索原型系统。
其他文献
本论文对虎皮楠生物碱daphenylline、三萜类天然产物malabanone A以及海绵烷二萜polyrhaphin D和marginatone进行了合成研究,主要包括以下三章:第一章海绵烷二萜的合成研究进
影响区域创新的两大重要因素分别是区域创新投入,和区域之间的创新空间溢出。事实上,创新资源和要素的空间分布极不平衡,大部分区域无法仅依靠自身投入来增强区域创新。在创
工业生产中较为传统的采样方式是均等时间间隔的均匀采样,即单采样率系统采样,而单采样率系统理论已经非常成熟,但是在现代工业的生产过程中,都会涉及到多种传感器的配合使用
5G作为下一代移动通信技术,需要在现有的基础上大幅度提升传输速率、系统容量并且降低通信时延,保证传输可靠性。在当前可用频谱资源日趋紧张的情况下,大容量MIMO技术能够有
作为老百姓亘古不变的期盼,平安是各级地方政府必须提供的最基本的公共产品,更是民生需求最基本的体现。要想实现乡村振兴工作,首要做好平安建设,平安建设是乡村振兴的重要保障。当前,我国基层面临各种治理问题和矛盾危机,突出表现为自然资源短缺、人居环境条件恶化、基层公共事务衰败、基层公共服务短缺等诸多问题。因此,需要加大平安建设投入力度,采取更加主动、积极的方式维护社会和谐稳定,才能够实现全面深化改革,更好
青岛基层组织建设经验丰富,叫响全国的“莱西经验”就是以加强村级党支部的领导核心为重要内容,新时期深化拓展莱西经验,需要不断加强村级党支部的引领和带动,而党支部的作用发挥如何关键在人,即党员干部的先锋模范、带头作用的发挥。新形势下,需要不断探索运用新方式、新手段加强对党员干部的教育,为农村党支部培养靠得住、顶得上的好干部。《2019—2023年全国党员教育培训工作规划》中要求创新运用信息化手段,推动
随着移动互联网的兴起,社交网络的发展如火如荼,在国内,以微信、新浪微博为代表的社交产品开始占用人们越来越多的碎片化时间。微博的两种社交规则使其成为一个具有信息集散
纹理图像中重复纹理元素的提取是指将组成纹理图像的具有相同或相似特性的重复单元(即纹理元素)的数据结构提取出来。重复纹理元素提取的目的是识别纹理图像中具有相似视觉特
跨语言层次分类体系匹配是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类的一项任务。它是实现跨语言知识共享与融合的重要途径,也是
文本表示算法的研究意义重大。目前常用的两种文本表示算法是以词袋模型为代表的统计语言模型和概率神经语言模型,然而统计语言模型和概率神经网络为代表的文本表示算法都有