SMS-2008标注中文短信息库

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:shayneinfo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私标注语料库、内容标注语料库、错误标注语料库等。该语料库可用于短信语言现象研究、短信分类过滤算法研究、隐私保护算法研究、自动纠错算法研究等。
其他文献
自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有
传统的基于语义距离的概念语义相似度算法不能兼顾客观统计数据,基于信息量的相似度算法又难以获得权威统计样本,针对这些不足,该文提出一种基于贝叶斯估计的概念语义相似度算法
语义数据的内积计算是个难点问题,制约了有关语义数据的核分类方法的研究和发展。针对此问题,通过给出一种语义数据相异性度量测度的新定义、计算语义数据内积的简化方法、研
随着我国新课程改革的深入推进,人们普遍要求开展素质教育,而小学音乐学习可以提高学生的综合素质,促进小学生的健康成长。在小学音乐学习过程中,要遵循小学生的认知规律,鼓
问题理解是问答系统中的重要组成部分,尤其对于协作式问答。在协作式问答中用户对所提出的问题进行了详细的说明和描述。如何利用这些描述信息来提高系统的性能,是一个很重要的
相对高中其他学科来说,学生在学习化学时较为吃力,其主要原因是学生难以找到解决化学问题的方式,因此,掌握问题解决能力是学好高中化学的关键。笔者将结合问题解决教学法的相关步骤,提出几点实施策略以促进高中化学教学的发展。  一、前言  当前中小学的教材已经实施了课改,推行了新课本。在课程的安排上也做了相应的调整,但是部分的教师依然还没根据新课改更新自己的教学方法与手段。意图培养学生探究思考问题的能力是高