互联网环境下的中文热词与方言词汇的定量研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:poodlihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,特别是信息技术的不断发展以及互联网的普及,中文语言发生了巨大的变化。其中词汇作为语言中最活跃的部分,变化最为显著。互联网环境下的词汇变化,突出表现在两个方面:一方面是热点词新词不断涌现;另一方面是方言词在网络中的大量使用。对词汇的变化进行研究,有助于我们改进中文信息处理的性能;对热点词汇以及方言词汇进行识别,有助于补充语言词典、辅助语言的量化研究。本文中我们从词汇变化的主要来源-搜索引擎查询日志以及中文拼音输入法的数据入手,对词汇的变化加以研究。论文的工作包括:(1)提出了基于搜索引擎查询词的热词新词识别方法。通过对热点查询词的时间动态模式进行分析,我们发现热点词具有特定的时间模式。针对热点词的主要突发期进行检测,设计了基于突发期内频度比的算法以自动发现热点词。(2)综合考虑语义相似度与时间序列相似度,对热点词汇进行了扩充,挖掘了热点词汇相关的低频查询词,解决了低频热词新词难以识别的困难。通过对查询词频度序列的时间模式进行分析,我们对热词中的可预测部分重点加以识别。(3)提出了利用中文拼音输入法用户记录自动识别方言词汇的方法。通过对输入法用户的地理信息提取输入法词条的地域化特征,同时分析了输入法用户调用输入法的程序类别,对输入词条提取了口语化相关特征。通过综合分析地域化特征与口语化特征,提出了基于特征组合排序的方法对方言词汇进行识别。实验结果表明口语化特征与地域化特征相结合的方法大大提高了方言词汇的识别性能。(4)通过对中文拼音输入法数据中的词汇及频度信息,设计不同的词表,考察不同词表在各地域的频度排序序列之间的相关关系以比较各地方言之间的关系,利用层次聚类的方法对方言分区进行了量化研究。同时对词条在方言区域及其相邻区域之间的区分度覆盖度等特征进行分析,整理给出了各地域的方言特征词,最后我们实现了方言词汇地理分布的可视化,以辅助方言间词汇关系的研究。
其他文献
长期以来,我国学术界把刑事判决理由归为刑事判决书中所展示的理由部分的论式,限制了对刑事判决理由功能的分析。应从动态意义上来重新归纳刑事判决理由的内涵,把刑事判决理
[摘要]本文给出了效用函数和无差异曲线的一个性质的广义含义,并给出了在商业中的几个应用案例以加深读者的理解,达到灵活运用该性质的目的。  [关键词]效用函数 无差异曲线 商品组合
农村公共产品供给状况直接关系到农业发展、捉民增收和农村经济社会的稳定发展;保障农村公共产品的有效供给,不仅是我国当前财政工作的重点,也是统筹城乡发展和全面建设和谐社会
目的针对早产胎膜早破的临床处理对策加以总结并对最佳终止时机进行探讨。方法本次研究针对我院在2016年1月至2018年5月所接诊并处理胎膜早破患者的临床治疗情况进行分析,共
锰矿矿渣重金属含量高、毒性强且土壤理化性质差,造成植物修复比较困难,目前,用于锰矿渣植物修复的植物多为草本植物。本研究以木本植物白花泡桐(Paulownia fortunei)和夹竹桃(Nerium indicum)作为锰矿渣修复的植物材料,采用不同浓度有机物(泥炭土、蘑菇渣)和无机物(蛭石、凹凸棒)作为矿渣单一改良剂,探讨其对锰矿区白花泡桐和夹竹桃修复中的作用,以筛选出改良效果好的单一改良剂,并
为谋划今后一个时期现代畜牧业发展思路、目标和重点任务,为上级部门提供决策依据,2019年6月1 8日至2 5日,笔者等人对吉林市城区、永吉县、磐石市、桦甸市进行了调研,通过与
新生代印度-欧亚板块碰撞导致的青藏高原隆起,引发了全球环境巨变等一系列重大地质事件。而青藏高原隆升及其环境响应一直是地质学界研究的热点,其中定量重建古高程对精细重