基于规则引擎的大规模网页信息抽取平台设计与实现

来源 :北京城市学院学报 | 被引量 : 0次 | 上传用户:wei370210524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键。本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取。该平台采用EclipseRCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎。该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息。
其他文献
好的语言环境是城市建设的重要保证。但建设现代化的过程中,郑州市公示语英译还存在一些问题:如公示语英译的语法错误、拼写错误、表达错误、中式翻译、译名不统一等问题,针对
由临沂市经贸委主办的"2003年中国(临沂)国际畜牧业博览会",将于2003年1月5日至7日,在山东省临沂
期刊
本文从工业设计发展的历史出发,探讨设计与创意设计对城市发展的影响,旨在使内涵广博的工业设计为城市与建筑的文化发展寻到新思路;为城市文化建设"悟"出新天地。
在河南省林州市陵阳大道上,有一个被人们称为“东南亚”的小村——北陵阳村。有人说北陵阳村这几年“富了”.富得有点让人眼红。
有关专家分析指出,随着我国小麦市场国际化趋势的增强,飙升的国际小麦价格将带动我国小麦价格全面上扬,
针对在环境影响评价课程的传统授课方式的缺陷,提出案例教学改革方式,并对案例教学的内容、效果、不足及展望等方面进行系统探讨。
一种集供水、喷灌、滴灌、喷雾为一体的灌溉技术很适合使用于温