一种基于词编码的中文文档格式

来源 :计算机科学 | 被引量 : 0次 | 上传用户:gwzdx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。
其他文献
用乙醇水溶液提取烟叶中的游离氨基酸并通过阳离子交换柱纯化后,采用OPA(邻苯二甲醛丹酰氯)、FMOC(9-芴基甲氧基羰酰氯)联合在线衍生反相高效液相色谱法对烤烟、白肋烟和香料烟中
建立快速、准确测定果蔬中5种拟除虫菊酯类农药残留量的方法。采用漩涡振荡提取农药残留,固相萃取柱净化,毛细管柱气相色谱法-μECD检测器测定。该法可同时分离检测5种拟除虫
由于中煤龙化哈尔滨煤化工有限公司煤制甲醇主工艺漏硫事件时有发生,因此对主工艺介质进行冷却的循环水面临着污染,随之而来的问题是循环水系统的腐蚀和渗漏、消耗循环水水处理
酪氨酸在辣根过氧化物酶催化下被H2O2氧化为强荧光物质S,姜黄素对其荧光产生猝灭作用,据此建立了测定姜黄素的新方法。姜黄素浓度c在0.10~16.0μg/mL范围内与F0/F(F和F0分别为姜黄素