基于专有名词优先的快速中文分词

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:sephinroth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。
其他文献
在研究等价类测试时,可以根据可靠性理论的健壮性和单/多缺陷假设,将等价类划分为弱一般等价类、强一般等价类、弱健壮等价类和强健壮等价类四种,其中弱健壮等价类就是传统软件工