基于主题分析的文本分割技术研究

来源 :电子学报 | 被引量 : 0次 | 上传用户:vincent1115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.
其他文献
可循环使用的抛光液,能在硅晶片粗抛光应用条件下循环使用10次,且抛光速率,抛光均匀度和表面质量符合加工要求。
以巫山县新址西区为试验区,采用逐步回归分析筛选出该地区滑坡的敏感因子,将敏感因子作为输入,建立BP神经网络模型,对巫山地区进行区域预测。
H.264采用了多参考帧技术,大大提高了预测精度,改善了视频图像质量,然而这种特性同时也带来了很高的计算复杂度.为了降低H.264编码器的计算复杂度,本文提出了一种多参考帧快速选择算
连续混沌调频雷达的发射信号采用连续混沌信号实现信号调频,其性能逼近噪声调频信号,避免了离散调频设计中存在的前提限制(如:脉冲持续时间长、频率跳变等).基于混沌动力学理论,