《信息处理用现代汉语分词词表》规范

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:davidchen19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文给出我们为建立国家标准《信息处理用现代汉语分词词表》而制订的规范(草案),目的是广泛征求意见,引起讨论,以期改善之.
其他文献
OPTO22公司是美国专业生产计算机控制系统的重要厂家,其产品紧密结合了当飞速发展的计算机技术、网络通讯技术,其硬件产品以高可靠性而著称.此文介绍用OPTO22产品构成的智能控制系统的方法及主要技术指标.
对热轧线上垛板机的结构,工作原理以及各种动作的时序关系进行了仔细地叙述和分析,并给出了垛扳机的工作时序图,同时,对在垛扳机调试中遇到的一些实际问题提出了处理的方法,这对垛扳机的调试和维护工作具有重要的参考价值.
常规电镦工艺依靠经验来确定各工艺参数.而这些参数多为恒值,在镦粗过程中不能实时调节.本文介绍一种计算机控制的智能型电镦机.讨论了电镀速度、加热电流、镦粗压力等主要参数的控制方法,提出为保证正确的外部形状的"球形镦粗法"以及确保其内部质量的温度控制方法.
提出了一种处理钾长石的新方法--煅烧-分步浸出方法,使得钾长石中的各种元素得到综合回收。钾长石中的钾转变成硫酸钾、硅转变成白炭黑,铝转变成氢氧化铝等商品级产品。
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已有的双语语料库尤其是汉英双语语料库的规模不大,加工规范不统一,没有形成能够公开使用的通用双语语料库.本文工作在国家973子课题支持下,遵循中文语言资源联盟(ChineseLDC)资源共享的宗旨,参照都柏林核元数据元素集制定了双语语料文本标注规范,并对非限定领域双语句子自动对齐技术进行了研究,为大规模建立具有统一标准和规范的
本文采取统计的方法获取农业病虫害词汇的词性搭配规则、语义类分布规则,并进一步利用这些规则在大规模语料中采用并列同现、模式匹配、特征词匹配等策略获取病虫害词汇,建立特定专业领域(主要为农业病虫害领域)词汇词典.
句子中词与词之间的远距离关系和句子意义的理解是建立语言模型的中两个重要问题.本文依据依存语法理论,用语义依存关系序列表示句子中词之间的句法语义关系,该方法可以减少人工标注句子语义结构时使用的时间;在此表示方法下,本文提出一个基于语义依存关系的句子理解模型,模型可以解决词之间的远距离依存关系和句子意义理解问题.
词义消歧是自然语言处理中的一个难点和热点问题.现阶段,多义词消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,与实际应用还存在一定的距离,作者针对真实的应用情况,对大规模广西进行了词义消歧研究.本文比较了两个经典的统计模型解决大规模的词义消歧难题的优缺点,一阶隐马尔可夫模型考察了邻接的上下文,有些时候距离歧义词较远的词语往往对词义的确定起着至关重要的作用,所以这种方法的消歧正确率比较低,
时间短语是指描述时间概念的短语.在HNC理论中,时间概念大致可分为三种类型:基本时间概念,物化的时间概念,人化的时间概念.并依据语义将时间短语分为四种基本类型:特定时间短语,特殊时间短语,时间的序短语,时间间隔短语.本文给出了各个类型的构成模式,探讨了时间短语的处理策略.
本文介绍了HNC理论所定义的体词、动词及体词的动词兼类现象,分别从特征语义块的复合构成、对仗性组合、"的"字否定和某些特殊类概念等方面给出了消除体词的动词兼类的一些规则,最后给出使用这些规则的总策略和实验所得的数据.