论文部分内容阅读
文章介绍了体育新闻搜索引擎系统 Geeking的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面4个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合 tf-idf权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的 Geeking搜索引擎系统各项功能协调效果好,检索响应速度快。