汉语篇章修辞结构的标注研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dotnetgroup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-ical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。
其他文献
今年以来,我国经济适度增长,增速总体稳中有落,二季度可能降至8%以下,全年GDP增幅在8%-8.5%之间。同时,预计今年全年CPI涨幅将在3%-3.5%之间,其中二、三季度价格涨幅总体趋降,四季度会略有
随着市场经济越来越完善,体育产业其具有的巨大经济收入和崔动力越来越被政府和人们所关注。笔者根据学习观察,分析了体育产业所具有的特征、意义,并就体育产业对我国国民经济发展的影响展开详细论述,同时分析了体育产业中的现存问题。  在我国自20世纪80年代改革开放以来,伴随经济的发展,体育产业也迅猛发展,被誉为我国的“朝阳产业”。体育产业的发展,所带来的经济增长在国民生产总值中占据的比例越来越大,体育经济
在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝试消除该差异的影响。在最新的NIST LRE2007的测试任务中,相对于GMM-UBM基线系统,该文方法有效地提高了系统识别性能。在30s时长的测试中,等错误率(EER)相对降
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huf
目的探讨婴幼儿甲状腺舌囊肿的CT表现及鉴别诊断.方法笔者将12例临床手术和病理证实的婴幼儿甲状腺舌囊肿的CT片进行回顾分析.结果CT表现为颈前正中圆形或椭圆形囊肿11例(91.
该文提出了一种新的用于鲁棒性语音识别的特征规整方法。我们观察到在噪声环境下语音特征分布的形状相比于干净环境变化很大,因此提出了一种称为倒谱形状规整的新方法,它是利用