基于CRFs和歧义模型的越南语分词

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:intaaag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。
其他文献
信息技术的突飞猛进以及互联网、智能手机的普遍应用,各类智慧教学平台不断涌现,为深化课堂教学奠定了坚实的技术基础,极大地丰富了课堂教学手段,方便了师生线上线下的交流互
无人机监测是城市违法用地和违法建设监管工作的重要手段,提高无人机影像处理效率,能够有效减轻违法建设监管工作压力。基于这一目的,本文构建了基于卷积神经网络的深度学习模型,针对城市违法建设中典型的推土区图斑进行了样本集构建和模型训练,并利用无人机正射影像进行了疑似违法建设区域的快速发现实验。实验结果表明,本文方法对于0.5 m分辨率的无人机影像数据发现率能够达到85%以上,目标发现率较高,能够为城市违
根据针织服装设计专业建设"微工作室"的创新实践,阐述其概念及构建,介绍微工作室的运行模式及取得的成效,为高职教育在知识培养和技能培养双重目标下提供新的尝试和有意义的借
徽州契约文书中蕴藏有部分晦涩疑难之词, 对这些词语的解读可以为近代汉语词汇的研究提供参考, 为大型辞书的编纂、 修订提供帮助.运用词汇学、 辞书学的相关知识对徽州契约
针对粒子滤波在通信混合信号单通道盲分离中存在固定参数联合估计精度低,收敛速度慢等问题,提出了一种改进的盲分离算法。通过对传统的随机游走模型加以修改,并将参数粒子的
利用小波-Contourlet变换对图像分解具有多尺度和多方向性的特点,提出一种结合小波-Contourlet变换和无链表集合分裂嵌入块编码的图像压缩算法。小波-Contourlet通过方向滤波器组把小波分解的高频子带进一步分解为多个方向子带,从而更稀疏地表示图像的边缘和纹理。无链表集合分裂嵌入块算法充分利用系数子带内的相关性,具有复杂度低、编码效率高的优点。实验结果表明,与基于小波变换的SPIH
骨转移是前列腺癌患者死亡的主要原因,目前尚无有效的治疗方法。由于骨微环境在此过程中起着重要作用,因此我们关注于癌细胞与骨微环境(包括破骨细胞、成骨细胞和骨基质细胞)
GNSS数据质量的好坏直接影响着定位的精度和可靠性。针对目前GNSS数据质量分析的主流软件大多操作复杂,需要有一定科研基础,并且每个软件有自己的侧重点,有的不支持四系统,有的不支持可视化。从实际出发,设计并实现了一套多GNSS数据质量全流程分析软件,可以满足从卫星端、传播路径到接收机端的多GNSS数据质量分析要求。
近几年我国高等教育招生制度改革实行了对口升学政策 ,这是搭建职业技术学校与普通高等学校之间的立交桥 ,是既有基础文化知识考试又有专业技能测试的特殊形式的高考。如何为
随着科技的快速发展,许多建筑的高度和跨度不断增加,这类建筑对风荷载效应越来越敏感。特别是高层钢结构,因其质量轻、阻尼较小、刚度弱等特性,使风荷载成为其结构安全的主要