论文部分内容阅读
信息可视化(InfoVis)是文本数据挖掘的一项重要研究方向,也是人们从单一的信息数据中获取有用知识的一种重要途径。而数据挖掘正是从大量数据中提取潜在的,对使用者有价值意义的知识的一种方法。所谓可视化是指将数据信息或知识通过计算机处理转化为某种视觉形式的过程,并充分利用人的视觉感官来快速识别的自然能力,即通过提高用户的认知理解度来实现这种高效的转化。本文首先通过建立针对可视化结构实现的模型,提出一种实现结构组织的思考问题方法,然后对作为原始数据的中文情感语料库Ren_CECps 1.0的XML文档集进行进一步的人工处理和过滤为可用的数据源,最后利用开源的可扩展的可视化软件开发工具包prefuse将经过处理的含有情感信息标注的文本数据实现了针对不同情感信息标注结构,时序性,力导向,散点分布及可视化元素的3D化等多种可视化界面。情感信息充实度的分析方面,主要利用心理统计学中的标准分数来测量一个含有情感信息的文本集中不同文本间距离平均情感(非零值)的差异度,从而得到单个文本间与总体平均值得比较方法。同时还利用了其中基于卡方分布的质同性检验方法给出了判别某段时间内的目标文本集与标准文本集间是否存在显著差异来了解作者在这短时间内的心理活动是否属于标准定义的“正常化”范围,从而给今后研究中类似的样本判定提供了一种可行的处理方法。