基于大数据技术的OTA用户画像设计与实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:wp87825385
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着国民经济的快速发展,人民的生活水平显著提高。越来越多的人把旅游作为节假日休闲娱乐的首选。随着旅游人数的日益增长和旅游数据的大量积累,对OTA企业来说既是机遇也是挑战。OTA企业要想更好地生存,提高企业竞争力,获取更多的效益,就需要合理利用海量数据,分析和挖掘用户数据,掌握用户的特点和需求,为用户提供精准、个性化的推荐和营销服务。针对上述问题,本文提出了一种基于TF-IDF-LD的多项朴素贝叶斯算法模型,该模型通过引入特征词位置影响因子和去中心化词频因子对TF-IDF算法进行改进,并结合经过拉普拉斯平滑处理的多项朴素贝叶斯算法对数据进行分类处理,生成用户画像。最后,运用大数据技术,设计并实现了基于TF-IDF-LD的多项朴素贝叶斯算法的OTA用户画像系统。论文的主要相关工作如下:(1)在用户画像的研究中,通常采用分类速度快且稳定的朴素贝叶斯算法进行文本分类。但是在特征计算以及分类的过程中,该算法会自动默认所有特征的权重相同,这一前提会忽略每个文本特征的特性,在一定程度上会降低分类的准确性。为了解决这一问题,引入了经过特征词位置影响因子和去中心化词频因子改进的TF-IDF算法,与经过拉普拉斯平滑处理的多项朴素贝叶斯算法结合来提高文本分类的准确率,将其应用到用户画像系统中,可以提高系统数据处理模块的性能,进而提高用户画像系统的性能。(2)采用大数据技术设计并实现OTA用户画像系统,采用Flume技术收集数据,HBase技术存储数据,采用Spark、Hive、Presto技术处理数据,并采用改进算法进行数据分类和用户画像生成。对用户画像系统进行需求分析,介绍了用户画像系统的整体设计。最后,详细介绍了各模块的设计和实现过程,并对系统的性能和功能进行了测试,确保系统可以正常的运行。
其他文献
随着5G时代的到来,未来独角兽主要产生于产业互联网系统。因此,对互联网独角兽企业进行估值应给予更多的关注。因为独角兽企业的经营模式的特殊性,传统估值方法不适用于互联
<正>"三严三实"专题教育开展以来,青白江区坚持问题导向,"对症下药",多措并举破解"纹丝不动""敷衍了事""纸上谈兵""蜻蜓点水"这"四大顽症",推动专题教育深入开展。一是"定向
中国画是中华优秀传统文化的重要组成部分,是中国艺术的精髓,也是当代中小学美术教育中不可或缺的重要部分。把具有鲜明传统文化特征的中国画融入中小学美术教育中,是弘扬中
中小企业作为当前国民经济的重要组成部分,其健康发展对于国民经济整体发展具有很大的促进作用。纳税筹划作为一种被国家认可的节税手段,在促进中小企业整体利益最大化方面发
随着社会发展以及工业化,全球环境中的多种工业废气、自然灾害燃气、人类生活燃气的排量极其迅速的增加,全球气候均受到影响。在各国多地的大量地区经常会出现多雾的天气。在
本文论述了企业标准"领跑者"的内涵、性质,分析了标准"领跑者"制度在打造高端品牌、助推科技创新、高质量发展等方面的作用,提出了企业标准"领跑者"的产生机制、激励机制和监
改革创新是时代精神,思政课建设要向改革创新要活力,已经成为办好高校思政课的重要指导思想。站在"为什么要办思政课"、"办什么样的思政课"、"怎样办好思政课"的新时代坐标上
企业的生存条件、发展、获利的阻碍,组织机构和人力资源、产品创新的战略管理是保障,资产管理是关键。
高校思想政治教育在人才培养等方面取得巨大成就的同时,经过长期的理论积累和实践探索,形成了一系列反映教育本质、具有指导意义的规律性认识:毫不动摇坚持党的领导,保证高校
近年来,随着我国社会信用体系的进一步发展,我国的税收信用建设也进行了一些探索。但当前我国税收信用缺失问题依然十分严重,纳税人通过各种方式逃避缴纳税款,税务机关执法不规范,政府使用税款随意性大,税务中介职业道德缺失等现象普遍存在。这些现象根本上是由于涉税各方的信息不对称导致的,大数据技术的出现和兴起,给解决涉税信息不对称带来了契机。文章采用了文献研究法和总结归纳法,通过整理税收信用和大数据等相关文献