本项目为Kaggle数据挖掘竞赛题目。
这次题目主题是使用新闻数据和股票历史数据来预测未来股票数据的涨跌。提出本次比赛题目的公司是美国纽约著名的对冲基金公司 TWO SIGMA,这是一家使用各种技术,包括人工智能,机器学习和分布式计算来进行交易策略分析的公司。
股市是一国经济的晴雨表,然而股市受政策、新闻、舆论的影响非常大,容易波动剧烈。因此对股市进行研究很有必要。随着互联网新媒体的发展,人们越来越倾向于通过互联网平台来交流信息,实时股评中包含丰富的金融信息,体现投资者的情绪变化,因此对股市的研究可以考虑从股评入手进行挖掘分析。文本挖掘、机器学习、时间序列模型等技术兴起使得股评挖掘成为了可能。
在2001年L. Cao和Francis E.H. Tay等人阐述使用支持向量机模型(SVM)对标准普尔500指数进行分析,通过采用几种指标作为特征,并建模预测1993-1994年股票价格的走势,结果达到了一定的准确率,SVM 也被广泛应用于金融领域。Hassan M.R 等人在2007 年提出混合了 HMM(马尔科夫模型),ANN(人工神经网络)和GA(遗传算法)的模型,来使用从雅虎财经网站上收集的数据预测股票的变化,结果比一般的单一模型效果有了进一步的提升。Duan W和Yu Y在2013年基于情感分析的方法研究了社交媒体和传统媒体对于企业价值的影响,发现社交媒体的情绪变化与上市公司股票的关联性更强,市场情绪对于股票的走势也有一定的影响,这一方向也有一定的研究价值。
目前关于股票走势研究的文章比较多,但是都有一定的局限性,所以TWO SIIGMA公司在Kaggle上的赛题主要是希望参赛选手能够在股票走势方面得到更高的准确率。