基于AIE的半自动Web页标注关键技术研究

来源 :河海大学 | 被引量 : 1次 | 上传用户:yuzao81927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实现语义Web构想的关键是创建本体,并使用本体词汇对Web内容进行语义标注。在标注工具中集成信息提取(IE)技术,可大大提高语义标注工具的自动化程度、减轻用户负担。而自适应IE系统(AIE)使用机器学习,能自动从训练数据中学习信息提取的规则,以适用于新的应用和领域,这正是语义Web环境的需求。 本文分析了现有的集成AIE的语义标注工具的技术特性,指出它们的两个主要不足之处:不支持W3C的标准Web本体语言OWL和使用的IE功能较为简单。据此,本文首先提出了一个基于AIE的Web页半自动标注工具的框架,它支持OWL Lite本体语言,借助自适应信息提取系统Amilcale提供的自动信息提取功能,实现Web页的半自动语义标注。针对现有语义标注工具的以上两个缺点,在本文的标注工具的框架中,选择了两个关键技术进行深入研究:①基于Amilcare用主动学习方法半自动提取待标注事实的技术;②利用提取的待标注事实产生OWL Lite语义元数据的技术。本文通过对Amilcare及其应用编程接口(API)的深入研究,提出了在半自动标注工具中实现基于Amilcare的主动学习、半自动提取待标注事实的方法和流程,给出了相应的设计与实现技术;在对OWL Lite语言的构造子及约束进行分析总结的基础上,描述了Web页语义元数据应有的结构以及使用提取的待标注事实生成语义元数据的设计思想与实现技术。案例研究和实验表明:本文提出的技术方案是合理和可行的。
其他文献
作为数据仓库的一项关键技术,物化视图是加快OLAP查询响应速度,提高决策支持性能的重要手段.由于受到空间开销和视图维护代价等因素的约束,物化数据仓库中所有可能的视图是不可能
  物料清单(BOM)是企业产品制造过程中不同部门、不同流程间传递数据的基本形式,是企业集成管理的信息纽带。因此,BOM的结构设计及其数据正确性的维护都是企业信息管理中十分
本文对网络管理的协议及其相关技术,以及网络拓扑发现的实现原理进行了研究。首先介绍了一个将SNMP协议与ARP协议以及ICMP协议相结合的针对网络层的网络拓扑自动发现算法设计
  本文首先分析我国大多数中小软件企业的特点,并阐述本文研究的主要内容及其意义。其次,总结和阐述软件工程、软件过程、CMM和CMMI的相关基本概念,同时分析和总结我国中小型
粗糙集理论(Rough set理论)是由20世纪80年代波兰人Z. Pawlak提出的一种新的数学数据分析工具,它通过严格的数学公式来处理不精确性、不确定的问题,具有演绎、归纳和常识推理
随着计算机技术和网络技术的飞速发展, 由此产生的各种数据呈几何级数爆炸式增长, 各种在线数据增长迅速, 促使数据存储容量以每年3 到5 倍的速度急剧增加。大量数据密集型的
为了充分利用并行分布式计算资源解决大规模现实世界问题,并行处理技术和模块化结构已经被广泛地引入了模式识别领域中的分类器设计。本文研究了一种基于训练集划分的问题分解
电子政务(E-government)是指各级政府部门运用先进的信息手段,将政府可公开的信息面向社会、面向公众发布,并使政府的服务工作网络化。实施电子政务有助于政务公开和提高政务各
  本论文对数据仓库,数据挖掘及数据可视化技术进行了归纳总结,深入详细地研究了PMML结构,PMML树模型和PMML关联规则模型,设计了PMML解析器DMVTable,分析了OpenGL技术,设计了图形
本文结合作者在一家手机设计公司的实习经历,详细阐述一款MP3手机的MP3播放功能部分的设计和实现,包括方案选择、与手机基带芯片的硬件接口、软件通信协议等。  总结了一款