论文部分内容阅读
21世纪人类的社会是一个信息化社会。在基础教育领域中,为了更好地为学生、老师、家长、教育机构等提供教育相关资源,我们研发了专用于基础教育资源搜集的快速高效的智能化基础教育资源搜索引擎。 在基础教育资源搜索引擎中,自动文摘是展示文档内容主题的摘要信息的重要部分。本文从分析多种Web文档的结构入手,提出了解析并提取文档信息的方法,特别是针对网页格式的文档,设计了提取其主题文本信息的算法。 在提取Web文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动摘要。自动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上可以提高运算和检索的效率。 本文通过分析基础教育资源的特性和现有的自动文摘方法,提出了把计算得到的基础教育领域的特征词权重,融入到计算文摘句权重的算法中,并同时考查句子位置、句子长度等文本表层统计信息的自动文摘算法。 本文还介绍了该算法的设计思路与实现步骤,并且针对自动文摘系统在基础教育资源搜索引擎中运行的实际情况,进行了科学的评价与总结,并展望了下一步的改进工作。