基于似然比的二元隐马尔可夫模型及其在信息抽取中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:chunxi1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的迅猛发展,网络上的信息量也呈爆炸式的增长.在网络上所有的信息形式中,文本信息无疑占据了最重要的地位.如何有效地自动化(或半自动化)地处理文本信息,从中抽取出有用的信息,已经成为应用人工智能.领域中一个重要的研究方向.隐马尔可夫模型(HMM)是一种非常有用的随机过程模型,近年来其应用领域已经由语音识别、文本切分逐渐扩展到文本信息抽取(InformationExtraction).该文提出了一种新型的由两个HMM组成的二元隐马尔可夫模型,将文本在切词的基础上切出两套平行的观察信号(单词序列及单词的语法成份序列)并行地输入模型,再由模型通过似然比的方法综合给出最优状态序列,从而在文本提取上综合了统计模型与自然语言处理两种方法,形成了新的抽取模型.我们在项目的实现过程中,选取了BBS上及网络论坛上二手版的信息标题作为抽取的实验领域,目的是通过模型从中抽取出二手信息的类型(转让、购买等)和品名(如自行车、电脑等).实验结果验证了模型的有效性.
其他文献
该论文第一部分是关于辽宁移动互联网建设的可行性分析,主要从辽宁移动企业业务拓展需要、用户业务需求、现有网络技术体制转变等方面进行了论述,然后从工程建设的可行性方面
首先,该文探讨了GIS的基本概念,分析并总结了GIS的几个主要发展方向,指出ComGIS是当前GIS研究的一个热点,是GIS发展的趋势之一.接着,该文介绍了组件和ComGIS的基本概念.从起
电子商务的发展,对Web Services提出了新的需求:如何有效的实现WebSerVices的集成型定制.具体来说,集成型的Web Services需要解决如下课题:WebServices的自动发现、自动执行
该文主要剖析了嵌入式实时内核UC/OS-II,开发了仿真智能UPS系统.该文共分四章,第一章着重介绍了嵌入式系统的基本概念及其开发方法论;第二章剖析了嵌入式实时内核UC/OS-II,总
该文实现了一个硬软一体件化的RSFW防火墙.2.实现了RSFW的入侵检测系统--Guarder.3.设计并实现了RSFW防火墙的远程配置系统.4.定制了RSFW防火墙运行的Linux操作系统--MiniLin
计算机技术的飞速发展把人们带入了信息社会,并且致使信息的拥有量及其增长速度极为惊人.如何从巨量的信息中提取人们感兴趣的知识成为亟待解决的问题.由此数据挖掘就成为数
随着计算机技术的迅速发展,嵌入式系统已成为计算机领域的一个重要组成部分.是当今中国的IT领域中最热门的话题之一.因此,挑选一个好的、满足特定需求的、有良好可伸缩性的操
该文首先回顾了网络信息检索系统的基本结构和关键技术,将基于客户机/服务器模式的检索方法和基于移动代理的检索方法进行了对比,阐述了移动代理技术在网络信息检索中的优越
信息抽取是一种从非结构化文本中抽取出结构化信息的自然语言处理技术。它包括命名实体识别,关系抽取,实体属性抽取等,其中命名实体识别是信息抽取的基础。命名实体识别是指
入网用户数的增加推动了移动通信事业的发展,同时也使移动通信网络的传输信道越来越拥挤,给移动通信网的建设、运营和维护带来许多问题.解决这一问题的办法,除了要采用新的大