论文部分内容阅读
出版业由于其单一信息判断、分析数据不足等问题导致库存积压,面临不少困境。因此如何让出版业实时、精准、个性化获取知识出版导向数据、热词,以便解决出版社缺少出版导向信息、库存积压等问题是大数据时代解决出版社困境的一个重要研究课题。其研究具有重要的应用价值和理论意义。根据出版业的出版导向需求,论文通过提出的SW-TextRank关键词提取算法为出版社从海量数据中提取热词、文本关键词,再根据提出的MV-CFiDNN个性化推荐算法为不同出版社提供实时、精准、个性化推荐热词、关键词。以便为出版社提供出版导向的强有力信息依据。论文针对出版业对于出版导向、知识导向分析不精准导致库存积压,数字出版转型需求等问题,提出了SW-TextRank关键词提取算法,为出版业提取热词、关键词。基于传统的文本信息特征(关键词)提取算法存在的不足、缺陷,提出的综合权重TextRank算法(SW-TextRank)是基于TextRank算法对信息属性权重划分存在的缺陷与不足,通过三个文本信息属性关键指标结合赋权法计算出各信息词权重值,然后将综合权重作为TextRank算法原始权值,以此进行信息特征(关键词)提取算法。而提取的热词、关键词通过MV-CFiDNN个性化推荐算法为不同的出版社提供精准、实时、个性化推荐,以此提高出版社出版导向精准度等。根据传统的推荐算法对信息推荐的精度不高、实时性较差、个性化不突出等缺陷,提出了多视角深度神经网络(MV-CFiDNN)个性化推荐算法。MV-CFiDNN推荐算法模型可以实现对特征值的训练、学习,无需人为的进行特征标注,同时,可以更好的实现对文本信息的高精准、强实时、显个性化的推荐。提出的两种算法结合出版业的需求,构建出版业服务个性化推荐系统,该系统基于海量数据处理,通过算法及模型为出版社推荐信息热词、关键词,以便为出版社预判出版导向及数字化转型,减少库存,个性化出版等服务。