论文部分内容阅读
如今,随着国家经济快速发展。与之而来的是个体在社会上面临的压力越来越大,长期处于这种状态下容易滋生心理危机问题。但是处在心理危机问题中的人大都并不会寻求相关医疗人员或者社会的帮助,却会在与人交谈中不经意间流露出消极乃至自杀的意念。随着信息时代的来临,网络社交媒体也得到了快速的发展。以新浪微博为主的带有个人情感色彩的言论信息正在以指数级的形式增长,越来越多的人们倾向于在社交媒体中去表露自己对生活以及其他的真实想法和个人感受。因此充分解读并且从中挖掘更深层次的信息,能够为心理危机问题的研究提供强有力的支撑。而由于微博数据中包含大量无关、冗余的信息为相关研究带来了一定的困扰,所以为了更好地研究微博用户的心理危机问题,将带有心理危机问题的微博以简洁明了的文本摘要的形式展现给相关研究人员具有着重要的意义。尽管已有的自动摘要类型丰富,研究对象覆盖包括新闻、微博、情感等各种数据,但面向心理危机的自动摘要还没有文献提及。本文提出了面向心理危机问题的两阶段微博短文本摘要方法,该方法包括多特征组合的心理危机微博识别和面向心理危机问题的微博摘要抽取两个阶段。在第一阶段,识别含有心理危机问题的微博。首先分析各种特征对于心理危机问题微博识别的影响,然后通过将微博文本中的属性特征、语言特征以及词向量特征的特征向量化,送入分类器后筛选出包含心理危机问题的微博。实验发现,在单类特征上,词向量特征有着更优异的表现,而在对特征进行筛选之后更有利于过滤掉更多的无关微博,找出包含心理危机问题的候选微博。第二阶段,对有心理危机问题的微博进行摘要提取。首先将上一阶段得到的微博使用TextRank算法生成微博的无向图,并赋予各个微博不同的权值。但是经典TextRank方法考虑了微博的全局信息,而忽视了微博本身的语义特征。为对微博的语义有更精准的表达,提出了融合word2vec与TF-IWF的文本向量表示模型。为强化心理危机信息对摘要结果的影响,利用微博内含有的情感词等用词特征,结合程度副词与否定词,对其心理危机程度分析,制定相应的权重调整策略,适当地调整微博权值。最后根据权重计算微博分数,按照得分从高到低排序,依次选择分数最高的k个微博,并按照微博发布的时间重新排列,生成目标摘要。在第一阶段的心理危机微博识别中,用词向量word2vec融合其他具有明显区分度的单类特征,在对心理危机微博进行识别时,准确率和F值能达到0.17和0.32,相比于单类特征具有更好的效果。而在第二阶段心理危机微博摘要抽取中,“TFIWFw2v”的权重调整策略使抽取摘要的平均准确率达到0.433,高于经典TextRank的0.267。同时,两阶段算法在(10)(84)4)9),(10)(8(67)7),(1值上均高于经典TextRank。表明本文提出算法具有一定的有效性。