财经领域命名实体识别方法的研究与系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:new4kakaxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据处理技术的不断发展,互联网金融也进入了大数据时代。面对海量的财经文章,使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持。因此,开发一个识别财经领域中的股票名称、股票代码等命名实体的系统,具有重要的现实意义和使用价值。论文通过查阅相关文献,详细论述了课题的产生背景和相关技术的发展与应用。在总结需求的基础上,对命名实体识别系统进行了深入研究,确定了解决方案和技术措施。针对命名实体识别,本系统采用了条件随机场(Conditional Random Field,CRF)模型,在模型训练过程中结合了Co-Training方法,不仅可以提高模型识别性能,还减少了因标注语料而消耗的大量人力物力。对于命名实体的识别采用的是Viterbi算法。此外,为了解决CRF模型训练和实体识别时间较长的问题,将系统架构在Hadoop框架之上,使用并行化处理的方式来缩短其运行时间。本系统在设计上可以划分为模型训练和实体识别两大模块。模型训练模块采用CRF模型,使用选取的标注语料和特征模板,基于Co-Training方法训练得到一个CRF模型。命名实体识别模块可以从财经新闻、公司年报、个股研报等财经文章中识别出股票名称、股票代码等实体信息,识别过程使用了Viterbi算法,从而将识别问题转化为了序列标注问题。最后还对模型的识别性能进行了评测、比较,验证了CRF模型的优越性及Co-Training方法训练模型的可行性与有效性。系统经过测试,已经可以实现模型训练和实体识别两大功能,满足了需求分析中提出的功能和非功能需求,达到了预期的要求。系统现已上线运行。
其他文献
施肥是大型盆栽植物越夏时除水分管理之外需要关注的又一普遍问题。大部分消费者根本就不进行施肥或所施肥量无法满足植物正常生长所需。本文将就10英寸大小的吊盆如何施肥给
一、问答审题法即通过提出问题、回答问题的形式进行推断思考,把与问题有关的内容一一罗列,然后筛选分析,进而将“写什么”“怎么写”等清晰地凸显出来。如请以“走出这个圈子”
本文通过基于S7-200 PLC对伺服电机位置控制进行了阐述,分析了三种控制方式,并比较在不同的场合下哪种方式更适合,对实际的工程应用具有一定的借鉴意义。
“汤姆司中文铅活字”是由英国东印度公司澳门印刷所聘请英国印刷技师汤姆司(Peter Petting Thoms)负责监制的一批中文铅活字。其研制的缘起是为了《华英字典》的出版,它是中国
<正> 慢性肉芽肿病(CGD)是一种影响吞噬细胞的免疫缺陷病。在CGD患者中白细胞NADPH氧化酶失活,导致超氧化物缺乏和杀死细菌、酵母菌、真菌的能力缺失。约1/4的CGD患者是编码P
本文以云南电网有限责任公司丽江电网的线损管理工作为研究对象,建立基于电力大数据平台及云计算技术的电网降损综合分析系统,实现理论线损实时在线计算,统计线损与理论线损
桃的日光温室栽培是桃生产的重要形式,具有广闰的发展前景,但是常规日光温室栽培桃果实主要集中在4--5月份成熟上市,最早只能提前到3月下旬,春节佳节期间缺乏鲜桃供应。为此笔者
<正>Lisa的烦恼和许多写字楼里的office lady一样,Lisa聪明而漂亮,美中不足的是她由于近视,一直与眼镜为伴,Lisa认为框架眼镜既给自己的美丽打了折,又给生活带来种种不便,着
芳菲2号百日草(B2O1&#215;B3O1)是辽宁省农科院花卉研究所在育出矮型百日草芳菲1号后又育出的一个F1代百日草新品种。其母本是通过利用百日草F1代出现的目标性状株与轮回亲本多
经济核算体系是开展经济分析、进行宏观管理、实行科学决策的重要工具.因此,在国际上,市场经济国家特别是发达国家,都建立了三套各有重点、相互补充的经济核算体系: