面向产品需求的用户生成文本数据挖掘方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:jiaqishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产品需求贯穿了企业的整个产品开发过程,是产品开发成败的关键因素,决定了产品在市场竞争中能否获得相对优势。随着互联网的快速发展,来自论坛、微博、购物网站、内容社区以及行业垂直网站的用户生成文本数据成为了获取产品用户需求的重要来源。相比于问卷调查、用户访谈等传统的需求获取方式,用户生成文本数据具有花费时间少、获取成本低、样本量大等多种优点。因此,能否及时有效的挖掘海量用户生成文本数据背后蕴含的价值和知识是企业敏锐地把握市场需求和用户个性化需求的核心问题。面向产品需求的用户生成文本数据挖掘主要面临以下四个挑战。(1)产品种类的丰富性导致用户生成文本数据中提及产品的多样化,使得产品实体难以被准确识别;(2)文本内容的随意性导致用户生成文本数据所表达的信息碎片分散,使得产品信息难以被有效抽取;(3)表达方式的多样性导致很多用户会通过可以用情感解释的事实描述来隐含地表达观点,使得隐含观点难以被有效挖掘;(4)心理状态的复杂性导致用户的情绪时刻在变化,使得用户的情绪难以被准确检测。围绕上述挑战,本文采用了采用理论分析、数学建模和实验相结合的研究思路,运用机器学习、计算语言学、网络结构分析和自然语言处理等方法,从产品需求要素识别和产品需求语义内容理解两个方面开展面向产品需求的用户生成文本数据挖掘方法研究。本文首先从产品实体和碎片化产品信息两个方面识别用户生成文本的基本语义单元作为产品需求的要素,为产品需求语义内容理解提供底层的信息支持;在此基础上,分别从用户观点和用户情绪方面来理解用户生成文本数据的语义内容。本文的具体研究工作和成果总结如下:(1)提出了一种融合产品领域知识的产品实体识别方法。首先,设计了一系列基于词和基于发音的规则来扩大词库中产品实体的索引范围;然后,生成给定句子的每个字符的候选产品实体,并基于产品领域知识,使用指称图模型建模候选产品实体的全局依赖关系;在此基础上,将产品实体的全局依赖关系嵌入到深度学习模型中,以进行中文产品实体识别。(2)提出了一种基于开放语义关系的碎片化产品信息抽取方法。融合开放语义关系抽取方法,将产品信息抽取任务表述为集合序列生成问题。首先,采用了自回归的方式学习信息元组的关系;然后,设计了一个独立的输出门来评估生成的信息元组的有效性;最后,设计了一种差异化的学习策略,使每个解码器可以在不同的信息条件下学习信息元组的生成方式。(3)提出了一种面向细粒度产品特征的隐含观点挖掘方法。首先,基于产品特征的语义关系,构建了层次化的产品特征类别;然后,分析了隐含观点的特点,定义了一种特征隐含观点模式(FBIOP)来表示用户的隐含观点;在此基础上,使用FBIOP分别在特征级别和评论级别分析隐含观点的情感极性。(4)提出了一种基于情绪转移的多标签情绪检测方法。首先,分析了用户表达情绪的特点,定义了用户情绪转移的概念;然后在此基础上,采用深度学习技术,通过分别在语义和标签上建模情绪的隐性转移关系和显性转移关系,来检测连续句子的情绪离散分布。此外,在检测情绪时还设计了将情绪向量化的方法,并通过降维实现了对不同情绪的3D可视化。本文的研究成果完善了命名实体识别和开放信息抽取等文本挖掘基础工作的方法体系,同时增强了用户观点挖掘的全面性以及丰富了文本情绪检测的理论体系,对于产品用户需求的获取具有一定的管理实践价值。在未来的研究中,有待在跨模态数据关联分析、跨语言需求模型建模和实时动态知识服务方案设计等方面对产品需求的获取与集成进行更深入的探索和研究。
其他文献
退耕还林工程的主要问题之一是怎么合理补偿参加工程的农户,这也是工程能否取得成功的关键。但是在实践过程中,现行标准的补偿方式慢慢显现出众多弊端,如补偿对象和目标挑选不合理、“一刀切”的补偿标准、补偿生态效应评价不合理等。这主要是由于在设定补偿机制时,没有考虑到空间的异质性。生态补偿具有地理学的属性,必然会受到地理区域不同的影响。在各种自然因素活动的影响下,造成了空间的外部经济,使补偿的生态服务项目具
随着列车运行速度的提高,由线路不平顺激振引发的随机振动对轨道车辆的平稳性、舒适性和疲劳寿命以及车载设备的可靠性均产生了重要影响。车载设备通过紧固件安装于车辆上,目前执行的振动标准中,车载设备在随机激励作用下的环境适应性以及车辆的随机响应研究以相对独立的体系进行,两者之间的相互作用难以计入;同时,车辆类型、设备安装位置、运行线路状态等因素对系统随机响应的影响也很难体现。目前车载设备环境适应性校核的主
随着科技的飞速发展,地球科学数据以指数形式增长,呈现出数据量大、更新快、多极化、多角度、高速发展等大数据特征。因此,如何从这些海量的地球科学数据中挖掘有价值的信息,成为新时代数学地球科学领域的工作重心。深度学习作为近年来机器学习领域的热点研究对象,具有从复杂数据中自动提取高级表示的能力,在解决目标检测、遥感图像识别等大数据问题上无疑具有巨大潜力。然而,深度学习在地球科学大数据挖掘与分析中仍处于探索
人肺具有巨大表面积,并与外部环境有特殊的界面。肺组织是由多种类型的细胞组成的,这些细胞在其一生中不断暴露于化学、物理、激素、免疫和外源性压力因素中。肺部细菌感染型肺病是常见的公共卫生健康问题,给国家或者城市的医疗保健系统带来了沉重的负担。呼吸道感染是导致全世界最多死亡的感染性疾病。吸入式抗菌药物在治疗肺部感染方面逐渐获得了广泛的关注,尤其是针对耐药性的细菌性肺部感染。事实上,雾化抗生素提供了一种优
杉木(Cunninghamia lanceolata)是中国特有的树种之一,具有重要的应用价值和药用价值。炭疽病是杉木上最常见、最严重的病害之一,目前杉木炭疽病的防治措施主要是化学防治为主和营林防治为辅。近些年,有机小分子杀菌剂得到快速的发展,科学家们通过不同的方法合成了各种类型的化合物并进行研究,以便快速寻找到医用或农用的高效、低毒、环境友好的先导化合物。然而,针对杉木炭疽病开发的小分子化合物少
锂离子电池已广泛应用于手机、笔记本电脑等便携式电子设备,并向电动汽车,大规模储能器件应用方向快速发展。然而,目前基于有机电解液的商业化锂离子电池的能量密度已接近其极限,且安全性难以满足要求。全固态锂电池采用不可燃的无机固体电解质替代有机液体电解质,极大提高电池的安全性能,同时为金属锂负极的应用提供了可能,有望进一步提高电池的能量密度、使用寿命和存储时间。凭借高安全性、高能量密度、宽工作温度区间等优
学位
位于莫高窟南区中段三层的第428窟规模宏大、内容精美、题材多样,不仅是莫高窟北周石窟的代表,也是研究北周石窟艺术、佛教思潮和艺术交流的重要遗存。多数学者认为其为时任瓜州刺史的建平公于义主持修建,年代为武帝灭佛前的五至十年间。建筑、雕塑和壁画构成了石窟寺的主体,因此本文的核心问题围绕第428窟的洞窟功能、题材内容和配置内涵等方面展开,运用考古学和图像学的方法分析图像的构成和特点,运用历史文献学的方法
背景创伤性脑损伤(Traumatic brain injury,TBI)仍然是全世界致残和致死的主要原因之一,每年有1000多万人因TBI住院治疗。尽管原发性机械损伤无法避免和干预,但如何防止继发性损伤对TBI患者造成进一步的伤害是目前TBI研究的重点。S100B不仅作为脑损伤的生物标志物,其血清水平与TBI的严重程度和预后密切相关,还可作为损伤相关模式分子,与RAGE结合介导一系列病理生理反应。
车体是车辆主要的承载结构件,其结构的强度和刚度必须满足设计标准的要求,保证车辆在运行过程中的平稳性、舒适性和安全性。CR200J动力集中型动车组拖车车体钢结构是基于25T型客车车体优化设计而来的,为合理利用既有检修资源和追求经济效益,对其车体结构进行不同荷载工况下的静力、模态分析以及疲劳破坏的研究,预测出其结构疲劳寿命。首先,对车体结构进行有限元模型的建立,充分研究分析车体的结构形式,根据加工图纸