网页数据多层语义抽取技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:cjn2503687
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据是分层处理的,数据的语义信息存在于网络体系结构的每一层中。基于这一思想,提出了一种网络数据多层语义描述方法。将网络数据语义分为弱、中、强三个语义域,不仅描述其主题、关键词、标题等内容语义,也描述其地址、协议、服务质量等物理信息,以及热度、重复度等统计信息,全面反映网络数据的语义特性。   本文在分析网络分层结构和各层协议的基础上,定义网页exUCL标签来描述网页数据语义信息,建立网页数据多层语义抽取系统,对网页数据进行分层语义抽取。阐述了该系统中各模块功能的实现方法,对各模块中分别涉及的关键技术等进行了研究。设计了各个模块的算法流程图,在实验室环境下,通过在线和离线分析数据包,成功抽取出了网页exUCL语义标签各语义域字段的大部分字段内容。生成了标签,实现了课题研究的对网页数据进行分层语义抽取的目的。   最后研究了基于标签库的句子相似度计算方法,为以后构筑exUCL语义向量空间,通过计算语义向量相似度实现网络数据的语义映射奠定了基础。   多层语义描述方法可以更深层次反映信息的内涵,可应用于信息过滤、业务检测、用户行为模式分析等领域。  
其他文献
近几年来,信息理论的研究结果表明:在存在丰富散射的无线信道中,收发两端均采用多天线,即多输入多输出(MIMO)系统可以获得比单发单收系统更高的容量。因此,MIMO技术引起了研
随着现代制造业的飞速发展,普通数控系统(Computerized NumericalControl,CNC)在机械加工中的自动化程度不高,网络化缺乏等局限性日益突出,数控系统的功能扩展成为数控技术发
近年来,模拟-信息转换器(Analog-Information-Converter,AIC)以压缩感知(Compressed Sensing,CS)理论为基础,颠覆了传统的信号采集与处理观念,直接将具有稀疏性的模拟信号以
心血管疾病是威胁人类生命的主要疾病之一,而心电信号(electrocardiogram,ECG)是心脏电活动在体表的综合反映,因此,临床心电图检查对于检测和诊断心脏疾病具有重要意义。然而
自动相关监视(ADS)技术,是基于卫星定位和地/空数据链通信的航空器运行监视技术。ADS的概念,最初是为越洋飞行的航空器在无法进行雷达监视的情况下,希望利用卫星实施监视所提
Contourlet变换是一种新的“真正”的二维图像表示方法,具有多分辨率、多方向、时频局部和各向异性等特点,在图像处理领域有着广泛的应用前景。但Contourlet变换不具有平移不
利用航拍图像序列对地面目标进行三维重建在军事侦查、导航、测绘、目标识别等领域具有重要价值。立体视觉是计算机视觉的一个比较重要领域,合成孔径视觉处理利用全部图像序
随着现代通信技术的发展,人们对数据通信的服务质量要求越来越高,如何在高速传输的过程中保持通信系统的可靠性,减少系统传输时信息的错误概率一直是研究的热点,而信道编码技
几何信息模型是实现多学科协同仿真的基础。STL模型(一种三角形物面网格模型)具有数据结构简单并且与三维CAD系统无关的优点,已经成为多学科仿真采用的主要几何信息模型之一。
随着通信技术的迅速发展,传统电视逐步向着数字化、网络化、智能化的方向前进。为了满足人们的需求,机顶盒应运而生。从本质上说,机顶盒也是嵌入式系统,包括硬件部分和软件部