【摘 要】
:
如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。在自然语言处理中,以大量真实语料构建语
论文部分内容阅读
如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。在自然语言处理中,以大量真实语料构建语料库并使用统计方法获得之中的语言知识以建立模型进行处理的方法,获得了蓬勃发展,在实践中有着良好表现。而语料库建设,就成了自然语言处理的基础工作。本文探讨古代汉语史书语料库的建设。阐述了建设的一般流程;讨论了语料的选择、编码的确定、字符层面的清洁处理、断句以及断句标点的清洁处理等主要步骤;给出了从已有网页文档开始,直到生成经过清洁处理、断句的初步加工的语料的通用算法;接着,本文探讨了语料库的查询功能的设计;之后,详细描述了若干关键算法与结构的设计与实现;在以上工作基础上,开发了一整套用于语料建设的工具软件;并具体构建了《资治通鉴》语料库。
其他文献
随着计算机网络和通信技术的迅速发展,网络的异构性和复杂性日趋提高,网络规模也不断扩大,因此用户对网络的灵活性、扩展性、智能性、和高效性提出了更多更高的要求。与此同
电信增值业务是基于电信网络提供的具有信息化、个性化和智能化特性的业务,是随着计算机技术和互联网的普及发展起来的新型电信业务。增值业务的提供方式根据所依赖的网络类
随着移动互联网的快速发展,很多的分布式应用需要有大量节点参与才能体现分布式环境的优势,但是如果没有成千上万的节点参与到实验中,是很难实现其效果的。在充分研究电信系
数字家庭是随着计算机网络的普及以及对人们生活的渗透而产生的新概念。其目的是将与人们生活息息相关的各类电子消费品、移动终端,数字家庭等设备通过一个统一的网络连接在
智能网的基本思想是将传统交换机的交换功能和业务控制功能相分离,这样使网络可以快速、灵活、方便地产生各种新的电信业务。智能网技术特别是移动智能网技术的广泛应用极大
近年来,移动广告业务无论在业务规模还是在用户规模上都有了长足发展,随之而来的业务管理的需求量也日益增长,这就对移动广告管理平台提出了更高的要求。在当前的企业中,市场
目前移动通信网络中的核心网部分主要由电路交换域(CS)、IP多媒体子系统域(IMS)和演进的分组系统域(EPS)三个部分组成。这三个域在功能实体、业务提供以及数据存储方式等方面
贸易流程十分复杂,牵涉到很多部门、组织和公司等。快速而又准确的描述一个贸易流程可以极大的提高工作的效率,这时候就需要一个好的流程建模工具。本文的研究重点就是开发一
现代社会已经步入信息化社会,信息技术在经济发展、社会进步以及人民生活等各个方面起着至关重要的作用。随着移动通信和Internet的迅速发展,互联网与电信网之间的边界越来越