论文部分内容阅读
我国的财经领域(包含各种金融市场)积累了大量的数据信息,这其中既包括结构化的数值数据,也包含大量的非结构化的文本数据。投资者们可利用相关技术从金融市场的海量数据中挖掘出有用的信息,从而指导投资行为和帮助做出正确的决策。本文运用文本挖掘技术研究了即时的中文财经新闻报道对于金融市场(主要是中国股票市场)价格趋势的影响。研究认为,财经新闻对股票价格的影响实质上是一个对财经新闻进行分类的问题,将新闻分成积极和消极两类,积极的新闻促进股价的上涨,消极的新闻造成股价的下跌。本课题研究的对象是文本形式的中文财经新闻,研究采用的方法是文本挖掘技术中的文本分类方法。文中首先对文本挖掘的相关技术进行了简要介绍,详细的研究了文本分类的关键技术,对文本的预处理过程、文本的特征表示、文本的分类过程都做了进一步的分析。根据文本分类的理论知识,设计开发了一个财经新闻分类系统。系统在新闻预处理模块,将保留名词和动词与去停用词结合起来对新闻进行处理,使得特征词的数目大大减少。在新闻表示模块,实现了四种特征选择方法。在文本分类模块,采用Libsvm软件对新闻进行训练和分类。最后,将新闻的分类结果展示出来,并且给出了相应的股价趋势判断。文中从新浪网站财经新闻频道选取了实验所需的新闻集合,包括银行业、有色金属、煤炭石油三个行业部分上市公司在一段时期内的新闻报道。运用所开发的财经新闻分类系统对上述三个行业的测试新闻集进行分类,根据分类结果得到对应公司短期内的股价趋势变化方向,对比公司实际股价趋势得到股价预测准确率,并对结果进行详细分析。实验分析表明,有色金属和煤炭石油两个行业的各个公司的股票价格更容易受到其相关的财经新闻报道的影响。