论文部分内容阅读
随着科学技术的进步,特别是信息技术的不断发展以及互联网的普及,中文语言发生了巨大的变化。其中词汇作为语言中最活跃的部分,变化最为显著。互联网环境下的词汇变化,突出表现在两个方面:一方面是热点词新词不断涌现;另一方面是方言词在网络中的大量使用。对词汇的变化进行研究,有助于我们改进中文信息处理的性能;对热点词汇以及方言词汇进行识别,有助于补充语言词典、辅助语言的量化研究。本文中我们从词汇变化的主要来源-搜索引擎查询日志以及中文拼音输入法的数据入手,对词汇的变化加以研究。论文的工作包括:(1)提出了基于搜索引擎查询词的热词新词识别方法。通过对热点查询词的时间动态模式进行分析,我们发现热点词具有特定的时间模式。针对热点词的主要突发期进行检测,设计了基于突发期内频度比的算法以自动发现热点词。(2)综合考虑语义相似度与时间序列相似度,对热点词汇进行了扩充,挖掘了热点词汇相关的低频查询词,解决了低频热词新词难以识别的困难。通过对查询词频度序列的时间模式进行分析,我们对热词中的可预测部分重点加以识别。(3)提出了利用中文拼音输入法用户记录自动识别方言词汇的方法。通过对输入法用户的地理信息提取输入法词条的地域化特征,同时分析了输入法用户调用输入法的程序类别,对输入词条提取了口语化相关特征。通过综合分析地域化特征与口语化特征,提出了基于特征组合排序的方法对方言词汇进行识别。实验结果表明口语化特征与地域化特征相结合的方法大大提高了方言词汇的识别性能。(4)通过对中文拼音输入法数据中的词汇及频度信息,设计不同的词表,考察不同词表在各地域的频度排序序列之间的相关关系以比较各地方言之间的关系,利用层次聚类的方法对方言分区进行了量化研究。同时对词条在方言区域及其相邻区域之间的区分度覆盖度等特征进行分析,整理给出了各地域的方言特征词,最后我们实现了方言词汇地理分布的可视化,以辅助方言间词汇关系的研究。