论文部分内容阅读
大数据时代的来临为技术管理工作带来了新的挑战。传统的技术管理方法和工具已经无法满足大数据环境下的技术管理需求。技术预测的出现和发展为解决技术管理问题提供了可行的方法。当前研究存在以下问题:(1)单一数据源无法满足技术预测的分析需求;(2)当前对技术预测中多源数据问题的解决方法效果不佳;(3)当前的数据融合方法不适用于解决技术预测中的数据融合问题;(4)数据融合在当前的研究中,其作用往往停留在技术预测的某一阶段,如数据处理、数据分析,少见能够将数据融合思维贯穿技术预测整个过程的研究。为了解决以上问题,本研究以数据融合为视角,基于技术预测相关理论、自然语言处理技术和文本挖掘相关理论,对技术预测方法的各个环节进行优化,针对技术预测中的数据处理、数据分析和结果可视化环节,开展了对应的数据融合研究、主题识别研究和可视化研究,提出了数据融合视角下技术预测方法,并以抗抑郁药领域为对象开展了实证研究,对该方法的效果进行了验证,最终得到以下结论:(1)本研究以数据融合为视角,对技术预测方法的主要环节进行优化,研究内容包括技术预测中的数据融合研究、主题识别研究和可视化研究,最终构建了数据融合视角下技术预测方法,并以抗抑郁药领域为实证对象,开展了实证研究。结果证明,该方法可以解决技术预测中的多源数据问题,对多源数据进行有效利用,更好地支持目标领域的技术研发决策活动。(2)本研究通过对技术预测相关数据特点的分析,选择自然语言处理技术对技术预测中的数据融合问题进行解决,通过抽象将数据融合问题转换为文本分类问题,并利用自然语言预训练模型构建了数据融合模型。对方法进行验证,结果证明构建的数据融合模型表现优异,说明了构建的数据融合模型的有效性。(3)本研究根据融合后的数据格式特点,选择LDA主题模型和LDA2vec主题模型作为主题识别方法的备选方案,进行最优主题识别方法的选择。根据实证研究结果,发现LDA2vec主题模型更适合对融合后的数据格式进行主题识别;LDA主题模型更适用于传统的数据格式。同时也根据这一结果对LDA2vec模型的应用悖论出现的原因提出了可能的解答。(4)本研究将文本相似度理论及文本相似度计算方法应用于对主题演化关系的分析中,构建了自动化的技术预测可视化流程。根据实证结果发现,该方法自动化程度高,易于操作,同时能够有效对目标领域当前的技术研发状况进行描述,对未来发展趋势进行预测。本研究的主要创新点包括:(1)针对技术预测中的数据融合问题,从自然语言处理的角度对技术预测中的数据融合问题进行了理解与抽象,将技术预测中的数据融合问题转换为了自然语言处理中的文本分类问题,并据此构建了面向技术预测的数据融合模型和数据融合流程。(2)对于技术预测中的主题识别环节,对当前主流的主题识别方法,LDA模型和LDA2vec模型进行了比较研究,明确了二者适用的数据类型。针对融合后的数据格式,选择LDAvis为比较方法,主题意义和主题距离为评价指标,进行了最优主题模型的选择。(3)对于技术预测中的可视化环节,利用主题模型和文本相似度计算的技术和方法对主题识别和可视化问题进行解决,实现了技术预测分析的自动化。