THUUyMorph:维吾尔语形态切分语料库

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:twpt168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个
其他文献
1988年4月,各地毛纺行家聚会内蒙古,对目前市场的毛纺织品原料、生产、销售等价格行情作了分析。据《经济信息报》报导,会上提出了发展毛纺产品的三条建议。
针对陕北两种天然气气质条件,考虑了11个净化方案,涉及7种处理工艺.在对上述工艺及方案讨论分析的基础上,建议对合H2SO.14%7kCO24.5%的天然气采用压力下选择脱硫──酸气选择催化氧化的净化方案;而对于
低渗油田储层物性均质性差,在普遍低渗的背景下,有可能存在相对高渗区块,若该区块位于有利的二次油气运移方向上,则可以形成局部富集区块。作者应用这一原理,对陇东地区三迭系延长
采用有限差分法求解声波方程,较好应用吸收边界,自由边界及震源,成功地模拟了地下半无限非均匀介质中声波传播的物理过程,获得了能清楚分辨反射波,多次波,绕射波等各种波型的声波VPS剖
根据纺织部“品种质量年”的要求,中国纺织复制行业协会和中国纺织工程学会家用纺织学组于6月7日至9日在西安市组织召开了《全国纺织复制产品结构调整学术交流研讨会》。全国
从1989年起,对棉纺细纱机和纺织工业主要行业的主机设备生产要实行“生产许可证”制度,统一纳入纺机生产计划.合格企业发给生产许可证,登报公布,纳入计划;不合格企业,也登报
据外电报道,为了购买买主们目前不需要的羊毛,澳大利亚羊毛公司已耗尽其18亿澳元(14亿美元)的市场支持基金,目前已举债来支付其对羊毛的购买。对饲养者的征税可能将增加5~15%,来
久闻广州维观生物科技有限公司的生长因子抗衰老项目效果出众,借着这次采访的机会,记者亲体验了一番。“嫩肤提升”——根据皮肤、年龄选定疗程给记者做脸的是维观品牌定制培训
随着2014华山论剑“美丽中国行·记者走基层”活动的不断深入,越来越多优秀的美容企业、名店、机构、代理商进入大家的视野,他们用双手缔造美的神话,用科技守护美丽事业。9
据《国际经贸消息》报道,纯麻织物在国际市场受到青睐.开发生产麻织物系列产品不仅容易出口,而且还具有以下有利点:1.纯麻织物出口价格高、效益好.据目前生产麻织物企业的情