论文部分内容阅读
互联网的快速发展使得网络上基础教育资源数量快速增长,越柬越多的教育用户开始利用互联网获取基础教育资源。为了向教育用户提供更加精确、方便的面向基础教育的资源搜索服务而设计了基础教育资源搜索引擎-博石(BERSE)。基础教育资源搜索引擎是一个庞大的资源检索系统,涉及到的关键技术包括信息采集、预处理、中文分词、特征提取、分类、标引等技术。本文结合笔者在该项目中负责子课题的实际情况,重点围绕信息采集、资源分类、全文检索关键技术进行了研究。
作为一个理论与实践相结合的研究课题,本文的主要研究工作和研究成果包括:
(1)根据对教育资源的网站级结构和网页级结构的分析,提出了一种针对动态网页自适应算法。
(2)提出教育资源变化的判定依据,实现教育资源的实时增量更新。
(3)没计了分布式资源采集器,能根据实际硬件条件动念调节资源采集器的数量,并且保证各采集器之间的通信与协同工作。
(4)通过对常用特征提取算法的比较,提出基础教育资源的多重特征选择方法,通过该方法提高了基础教育资源特征选择的准确性及特征的区分能力。
(5)通过对层次分类算法的改进,提出基础教育资源层次分类算法。通过实验证明,本文的方法能获得较好的分类效果。更适合于基础教育资源的分类。
(6)本文通过对Lucene全文检索工具包的改进,扩展了基础教育资源的索引模块和检索模块。