新闻类信息的组织和话题监控

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:linxulong07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文针对网络新闻的平台,提出利用自然语言处理和机器学习等算法进行内容组织和话题监控,从而提供用户便捷地定位“兴趣信息”的浏览体验。通过这套文本处理系统,用户可以采集实时新闻,定制喜欢的新闻,以及按类别细化查找想看的文章。此外,用户还可以发现实时热点话题,跟踪感兴趣话题的动态。论文工作首先用传统的文本处理手段进行新闻组织、用户频道定制和话题发现,主要有:基于文本分类器自动划分用户感兴趣的新闻;基于Single-pass、NMF和LDA等文本处理算法对历史新闻进行话题发现。然后提出了一系列创新的新闻平台解决方案,主要有:基于HFTC算法进行新闻组织,自动构建出具有层次性的新闻聚类结构,帮助用户按带有语义描述信息的类别进行新闻查找;基于WBN-FTC进行话题发现,克服了FTC算法支持度阈值难以选择的缺点,不仅可以像LDA那样有效发现话题,而且摆脱了VSM模型的限制,在海量数据上的时间性能更好,此外,还可以通过调整参数来设置话题发现的粒度;在工程实践方面,本文提出基于搜索引擎技术实现挖掘算法,不仅提高系统运行效率,而且降低编程成本。同时,论文提出两套话题跟踪方案,分别基于查询扩展和组合分类器,并提出利用时序特征进行话题预测和模式识别。这些都为话题监控领域提供了更广阔的应用前景。
其他文献
新媒体的独特表现使视觉传达朝着多维化、人性化、趣味化、参与性等方面发展,视觉、听觉、触觉、嗅觉等多种感官同时参与传达的过程,不同的设计形式相互结合形成新的信息传播
在视频信息高速膨胀的今天,如何在海量数据中快速高效的检索有用信息,找出感兴趣的内容,并对之进行有效的利用和管理,是多媒体信息检索和人工智能领域的一大挑战,已成为最新