【摘 要】
:
自然语言理解,特别是中文信息处理,一直是计算机界的难题。让计算机来理解和处理丰富的自然语言,极具挑战性。自然语言的计算机处理是一个多学科交叉研究领域。来自计算机科
论文部分内容阅读
自然语言理解,特别是中文信息处理,一直是计算机界的难题。让计算机来理解和处理丰富的自然语言,极具挑战性。自然语言的计算机处理是一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。近十多年来,随着计算机本身以及信息高速公路的飞速发展,中文信息处理开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。知网的创始人董振东先生在从事多年这方面研究的基础上在中文信息处理中创出新路,提出了知网(HowNet)的概念。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为语言信息处理的研发提供了丰富的知识资源。 本文根据董先生提出的知网理论和知网的数据文件,设计并建立了一个较为系统的知识库,并在上层利用知网知识库进行汉语言信息处理方面做了初步的研究。对于知识库的设计,即后台的语言知识表示系统,我们采用了程序表示和数据库结合的方法,即采用面向对象的程序设计方法对知识的概念进行表示,同时在数据库中记录词和程序的对应关系。这样在分析自然语言的时候,面对的不再是一些字符编码的组合,而是一个能描述词意义的对象集合。在知识库的基础之上我们还尝试地设计了知识库的API,为上层进行语言排歧和语义相似度计算等自然语言处理提供访问知识库的接口。最后,本文指出了在设计时的不足以及可能的改进方案。
其他文献
蓝牙技术是一种短距离无线数据与语音通信的开放性标准。蓝牙技术具有低成本、低功耗、容易组网等优点,在许多领域逐渐得到广泛应用。 蓝牙设备的组网和路由问题是当前国际
面对无线时代的到来,基于无线JAVA(J2ME)平台的应用开发正呈方兴未艾之势。本文主要针对J2ME技术平台的各个方面,包括MIDLet基础知识、高级用户界面设计、低级用户界面设计、持
微电子技术的发展,为嵌入式系统在提高硬件的性能、降低系统成本上提供了有利条件;另一方面,各种在PC上业已成熟的软件思想也向嵌入式领域逐渐渗透。更为重要的是,潜在市场的
随着Internet的发展,信息技术作为工具被引入商贸活动中,产生了电子商务。电子商务为企业的经营节约了成本,提高了效率,为客户带来了方便。但Internet是开放网络环境,任何人
移动Agent技术是随着Internet的发展而出现的一种新兴的分布式计算技术,能够较好地适应Internet分布式的特点,有效地简化分布式系统的设计、实现与维护。这些优越性使得基于移
本文主要是探讨在空间向量机模型下的中文的文本自动分类问题.考虑到中文与拉丁语系的区别,本文把重点也放在了中文文本的文本表示上.中文与拉丁语言不同就在于中文需要分词,
多用户检测是第三代移动通信的关键技术之一,是通信信号处理的研究热点之一。在CDMA移动通信中,多址干扰(Multi Access Interference,MAI)严重影响了系统容量和性能,要想真正的消
在传统的枪弹工厂里,枪弹的外观尺寸和缺陷是由检验员手动测量和目视检测,由于这样的检测需要长时间注视待检对象,再加上检验员自身素质、技能和经验等一些客观条件的限制可能会
在日常的信息传递和交换中,图像是一种非常重要的传播载体,而颜色又是决定图像表现力的关键因素,因此,图像彩色化技术近年来在计算机视觉领域和数字图像处理领域中都得到了广泛的
在交互式系统中一个重要的环节就是人与计算机之间的交互。交互方式是否自然真实、计算机响应是否准确、计算机响应是否实时等等因素决定了人与计算机之间交互的成功与否。人