论文部分内容阅读
文本分词以及语义相似度地计算大都依赖于中文词库,而网络的飞速发展产生了很多未收录词库的新词,进而影响了分词的效果和相似度计算的准确性。针对网络时代信息爆炸和新词出现频率高的特性,提出了在大数据背景下动态更新中文词库的模型。依据大数据的特点,提出了备用词研判标准模型,进而以四个子模型为基础提出了词库动态更新模型。