论文部分内容阅读
语言是人类特有的技能,使人得以区别于其它生物。语言对于人类来说既是工具,同时又是一套符号系统,也是一种生命进程的方式。而中文又是众多语言中很有特点的,它属于象形文字,词与词之间没有间隔,即未分词。这与英文等印欧语系有很大的不同,也就决定了中文的自然语言理解与英文等语言的自然语言理解在机制上截然不同,不能一概而论。1932年,陈寅恪先生在其《与刘叔雅论国文试题书》中,正式提出“中文文法尚未确立”,这被命名为“陈寅恪难题”。并受此启发,另辟蹊径从语言的对称性和拓扑性等进行中文自然语言理解研究。首先,本文对于语言的对称性进行了简要回顾。因为语言的对称性是智能科学实验室最早的研究课题,属于中文自然语言理解的开拓性成果。语言的对称性是指由语音、语义、语法、修辞的对仗形成的对称结构,从而在意境上有一种对称美。其次,拓扑学(Topology)属于数学的一个子领域,就是研究空间图形在连续变换后不变的性质。经过搜集相关学术资料,确定了将拓扑学与语言学相结合的思路,运用拓扑的方法去研究中文的问题。从语言的开放类和封闭类、概念隐喻理论、语言的递归性三个角度去体现语言的拓扑性,可以发现语言的拓扑性也是语言的一种特性。随着研究的深入,这种对于语言的理解方式是一种认知方法,适时地引入认知语言学,将其上升到认知的角度,不难发现这就是一种拓扑认知。本文找到了拓扑学与语言学的结合点,同胚映射、拓扑等价与语言学联系较为紧密。再次,随着机器学习与人工智能的兴起,现在自然语言处理得到了快速发展,文本分类、情感分析等相关应用方向出现,同时获得了积极的的市场反响。在这样的背景下,选择对联系统作为本文中文自然语言处理的应用实践。对联作为中文特有的一种语言形式,更是一种修辞手法,而且它也在一定程度上体现了语言的拓扑性质。此外,将基于神经网络的seq2seq模型应用到对联系统中可以实现对联的自动生成,通过模型的不断训练效果会逐步提升。这需要足够多的对联数据集的输入和参数的调整。本文在《笠翁对韵》基础上加入了网络上的一些对联数据,力图最大程度上呈现对联本来的面貌。最终,对联系统实现了预期的效果,对仗工整,衔接自然。这就证明了将seq2seq模型应用到对联系统是完全可行的。美中不足之处在于“平仄”处理的欠缺。对联系统的实现是对“陈寅恪难题”和陈寅恪的“对对子”的完美回应。而通过对语言的拓扑性的探索,可以更加整体、综合地理解中文的句法结构。从语义空间到语法空间,再从平面空间到三维拓扑空间,在语义、句法和语用三个维度上以认知的角度研究它的规律,从而打破了这三者之间的界限。