【摘 要】
:
在统计模型研究中经常需要分析多个随机变量之间的关联。本文以信息几何的理论为基础定义了多个随机变量的高阶“纯”相关性,提出了一种新颖的高阶纯相关变量的提取方法,并在
论文部分内容阅读
在统计模型研究中经常需要分析多个随机变量之间的关联。本文以信息几何的理论为基础定义了多个随机变量的高阶“纯”相关性,提出了一种新颖的高阶纯相关变量的提取方法,并在具体的文本处理任务中进行了验证。信息几何是指采用微分几何方法研究概率统计模型,它把一族概率分布看作高维空间里的一个黎曼流形,通过微分几何方法分析流形的几何结构,以期得到关于概率分布的深入结论。本文基于信息几何中坐标正交性的理论,得出一种可以恰当表示多个变量间的纯关联性的“混合坐标系”,以此为依据提出了检验高阶纯相关变量的方法,并对算法里参数的设置提供了理论上的依据。另外,从理论上分析出了几种不同的高阶关联之间的蕴含关系,为进一步的研究提供了理论基础。在具体的文本处理任务中,每个单词在一篇文本的出现与否可以看作一个布尔随机变量。朴素的模型一般假设各个变量之间是完全独立的或者仅有某种简单的低阶关联,但这种假设在很多情况下并不合理。本文基于信息几何理论,提出了一种有效的挖掘高阶纯相关词组的启发式算法,并利用滑动窗口、迭代增量等手段,有效地提高了算法的时间效率。本文通过在Reuters-21578和20 newsgroups数据集上进行文本分类的结果,以及用高阶纯相关改进N-gram模型的具体实验,证明了高阶纯相关算法的有效性和实用性。
其他文献
<正>胡锦涛总书记在纪念党的十一届三中全会召开30周年大会上的重要讲话中,概括总结了改革开放以来我们取得一切成绩和进步的根本原因,进一步系统论述了党的十七大提出的"十
选择因各种胰腺胆管疾病接受ERCP治疗的患者100例,随机分为两组,治疗组ERCP术前30min给予加贝酯治疗,对照组ERCP术前、术后均不予加贝酯治疗。发现治疗组ERCP术后血淀粉酶一过性
对再热温度为620℃的高效超超临界机组FB2转子钢的微观组织、拉伸性能进行了研究,采用轴向等幅低循环疲劳试验方法对FB2转子钢在室温和620℃下的低周疲劳性能进行了对比分析,
<正> 一、静电的起因和危害 摩擦起电就是在两种物质表面的挤压和分离过程中,一个表面会丢失电子而带正电荷,而另一表面则会得到电子而带负电荷,接触的压力和相互接触与分离
随着人类社会的高速发展,人们对能源的依赖也越来越高,几次的全球能源危机也在不断的提醒我们能源的稀缺和提高能源使用效率的紧迫,因此人们一方面不断地去探索和开发新能源,
食用菌下脚料是食用菌加工副产物,含有一定的多糖和膳食纤维等物质,但多被丢弃造成资源浪费和环境污染。本文利用食用菌下脚料通过发酵体系的选择、多糖及膳食纤维发酵条件的优
图模型变分推理是一种重要的确定性近似推理方法,根据凸对偶原理把概率推理问题转化为关于自由分布的泛函优化问题,并通过求解该优化问题进行近似推理。自由分布结构选择是变
目前封装向小型化、高密度化和多芯片化发展,铝作为芯片上互连材料已不能满足要求,需要新的互连材料来满足半导体技术对操作速度和可靠性方面的要求,这种材料就是铜。铜具有
在民主法治观念日益深入人心的年代,在公民自我意识不断觉醒的社会大环境下,建设一个以维护与促进公共利益发展为宗旨的服务型政府已经成为全体公民的共同愿望。同时,如何提
目的:测算和分析2013—2017年我国省际卫生总费用的健康产出效率,为控制卫生费用过快增长及构建整合型医疗卫生体系提供参考。方法:首先基于链式模型构建子链,然后采用数据包