机器学习到底是如何预测股市的
⑴ 基于微信大数据的股票预测研究
基于微信大数据的股票预测研究
大数据是近些年来的热门话题,无论国际上还是国内,影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据,如果把每天产生的大量数据比作神话时期的大洪水是完全正确的,这个数据洪流是我们前所未见的,他是全新的、强大的、当然,也是让人恐慌但又极端刺激的。
而我所分享的话题,正是在互联网环境下,如何利用大数据技术,进行股票预测的研究。–今天,我想分享我认为有意义的四点。
1.大数据下的商业预测
根据大数据,我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
大数据的核心是预测,预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的,这样的分析方法是否会有误差?
从传统认识上,由于资源和科技的局限,如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生,通过所选取的个体来代表全体,如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据,它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现,使人类进入了一个快速发展阶段,大数据也一样,它的含义是全体样本,从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息,从数据源上讲,本文没有采用所有社交网络上的数据,只分析了微信这个最具代表性的社交媒体作为信息源。
互动数据能反映用户情绪,搜索数据能反映用户的关注点和意图,在股市预测时这两种数据哪种更具有参考价值?
我认为都有价值,互动数据反映了用户对某一特定股票的喜好和厌恶,可以简单描述为对该股票的操作是继续持有还是卖出;而搜索数据则代表用户在收集该股票信息的过程,它是关注度的概念,某只股票搜索度高则意味着消息的影响力大。互动代表着方向,搜索代表着振幅。
我们知道这两种数据得出的结论会有差异,您是如何平衡这两种数据反映的情况来进行预测的?
正如上一个问题里提到的,如果是股票推荐,买进卖出等原则问题,则应该考虑互动数据,但如果已经买到手了,搜索数据可以提供一个幅度的概念,类似债券评级A级、AA级、AAA级等,供投资者参考,因为不同投资者对风险的承受度是不同的。
将股票和市场的消息整理成140字的短消息发布,是否意味着主要发布渠道是微博?现在微信公众号很火,有没有考虑通过这个渠道也发布消息?
事实上,信息传播的方式很多,微信作为新媒体当然影响力不容小觑,但目前技术投入最小的还是邮件、短信等方式,未来会考虑使用公众号来推送股票和市场消息。
如果在未来通过微信公众号推送消息,那么推送的消息会不会作为数据来源被再次采集?这会有多大的影响?
会被采集,但互联网上的每日关于个股的信息数量会达到很大,该推送会增加推荐股票1点权重,每只股票的权重成百上千,因此影响极小。
数据来源是微信公众号,除了准确性的考虑之外,是否还考虑过这样收集数据会较少触犯个人隐私?
从法律角度来看,搜索微信或其他个人聊天记录,是侵犯个人隐私权的,因此如果腾讯开放了这样的接口,每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
这样是否意味着即使存在违法的行为,其结果也是由腾讯来承担,而我们作为数据的使用方不需要承担任何法律责任?
在整个社会,我们作为系统技术提供方,应恪守大数据的伦理道德,遵守国家法律,如侵犯个人隐私,系统不会采集,谷歌有一句座右铭“谷歌不作恶”,本文提到的系统也一样。
2.基于大数据进行股票推荐实验
股票的及时度反应了微信文章所发布的时效性,及时度越高,数据价值就越大。
股票的热度反应了当前某只股票被关注的频度,关注频度越大,上涨的可能性越高。
数据的完整性:我们采用循环的方式对所有深沪两地发行约2236只股票(创业版除外)在微信搜索网站上的搜索结果进行保存。
数据的一致性:文件格式由负责保存数据文件的程序决定,单一的流程保障了文件的一致性。
数据的准确性:由于所分析的订阅号文章的是由微信公共平台的公众号所提供,在一定程度上杜绝了虚假消息对于预测系统的破坏。
数据的及时性:考虑到磁盘读写以及采集程序所处的网络带宽,以及搜索引擎对于采集程序的屏蔽,程序中采集两条信息之间间隔了5秒,因此理论上11180秒(3.1个小时)可收集完当日推荐所需要的数据。对于每个交易日,在9点-9点30分之间采集所有数据,需要7台以上的设备可达到最佳效果。本次试验受限于试验设备,在一台设备上,交易日每天早六时开始进行数据采集,也满足及时性要求。
数据分析:查看三个高优先级的股票,该股票当日的开盘价与收盘价,再与当日(2015-4-8)上证综指进行比较,可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
实验结论:按照上述方式,系统每天推荐出当日股票,在开盘时进行买进,在第二个交易日进行卖出。经过一个月21个交易日(2015-3-1至2015-3-31),系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性,因此可以作为股票甄选的因子。
3.股票预测的大数据发展趋势
网络数据分成三种:
一是浏览数据,主要用于电商领域的消费者行为分析,浏览数据反映了用户每一步的访问脚步,进一步刻画出用户的访问路径,分析不同页面的跳转概率等。
二是搜索数据,主要指搜索引擎记录的关键词被搜索频次的时间序列数据,能反映数亿用户的兴趣、关注点、意图。
三是互动数据,主要是微博、微信、社交网站的数据,反映用户的倾向性和情绪因素。
2013年诺贝尔经济学奖得主罗伯特?席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量:投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应(市场情绪)。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。
计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息;而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。
对于搜索数据:互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域,其原理是:股票量价调整是投资者行为在股票市场上的反应;与此同时,投资者行为在互联网搜索市场也有相应地行为迹象,我们要做到是:找到互联网搜索市场中领先于股票交易的行为指标,综合众多投资者的先行搜索指标,对未来的股票交易做出预判。
如同天气预报那样,不断优化模型、灌入海量信息,然后给出结果。并且在处理的信息中,有80%是“非结构化”数据,例如政策文件、自然事件、地理环境、科技创新等,这类信息通常是电脑和模型难以消化的。采用了语义分析法,可以将互动数据里的金融对话量化为“-1(极度看空)”到“1(极度看多)”之间的投资建议,通过分析互动数据的数据文本,作为股市投资的信号。
4.正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。
大数据在实用层面的影响很广泛,解决了大量的日常问题。大数据更是利害攸关的,它将重塑我们的生活、工作和思维方式。在某些方面,我们面临着一个僵局,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去,现在则意味着能够预测未来。
大数据并不是一个充斥着算法和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质,也构成了人脑的本职,而无论是世界的混乱还是人脑的混乱,学会接受和应用他们才能得益。
我相信,利用基础数据、搜索数据、互动数据再进行加权计算,可以对所有股票进行大数据遴选,从而给出投资建议。我认为,我们的肉身刚刚步入大数据时代,但我们的精神还滞留在小数据、采样思维之中,率先用理性击碎固有思维的人,也将率先获得大数据带来的益处。
⑵ 股票不能通过机器学习来预测,你知道是为什么吗
因为股票市场是非线性的,而且是变化多端的,所以是没有办法进行人为预测的。而机器一般都是被人设定好的程序,所以也没有办法对股票来进行预测。现在很多人都对理财比较感兴趣,所以大家都会对自己的财产进行合理的分配有些人就会拿出自己一些财产来进行炒股。炒股是一门学问,所以并不是每一个人都能够在故事当中获得大量的收益的。
机器只能够模拟过去的股票市场,让大家在学习股票的时候对股票行情和市场有一个基本的了解。但是机器是没有办法预测未来的,所以想要通过机器来预测股市是根本不可能的事情。所以那些想要走捷径,想通过机器预测股票行情的人还是脚踏实地的自己买一些相关的书籍和课程自己学习吧。
⑶ 机器学习在量化交易里面有多大的用处
曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。
机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程,广义角度来说就不单单是模型选择的问题。所以,如果认为“用支持向量机成功预测股票涨跌” 这样的研究,就是把机器学习应用于量化交易,这种狭义的认识无疑是买椟还珠,对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量,无非就是趋势的延续:现在,可通过系统的数据分析证实过去模糊不定的经验,机器学习算法将未曾被察觉的规律得以浮现纸面。
在我看来,未来的发展概有两个方向:
1.针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;
2.对于机器学习的热情回归理性,从工具为导向回归到问题为导向。
针对如何以问题为导向,在机器学习算法中挑选合适的工具,分享一些思路。
1.多因子模型的因子权重计算
当我们在构建多因子模型且已经选定了一系列因子之后,要如何根据不同的市场情况调整各个因子的权重呢?在以往的研究中发现,与其它算法相比较,随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以,目前在多因子模型的权重上,采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。
2.缺失值处理
处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义,以及我们需要使用数据进行何种计算。在尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)采用期望最大化算法 来用同一变量的已知数据对缺失值进行极大似然估计。(2)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力。
其实在量化领域,机器学习解决着线性模型天生的缺陷或弊端,所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用,目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态,很多时候也不是线性的。统计学习的优势此时就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。
在国内,机器学习在量化内应用跟领域有很大的关系,跟频率也有很大的关系。比如,CTA的运用可能就要多于股票,它处理数据的维度要远小于股票,获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum,它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。
很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征,对下一期盘口变化做一些概率上的预测,经过一定样本的训练之后,可以显著地提升算法表现。
而我仍谨慎看好深度学习等机器学习方法的原因在于,在认识市场上,现行的大部分方法与这些方法并不在一个维度上,这个优势让它们与其他方法相比,捕捉到更多的收益。也就是说,一个新的认识市场的角度才能带来alpha。
⑷ 机器学习可以预测股票走向,靠谱么
可以参考,但是我觉得也应该有自己的一套股市思路,综合起来才能在股市稳定盈利
⑸ 股票风险预测时,如何才能知道预测结果是否正确
随着机器学习和人工智能的兴起,预测:只需几行代码,就可以在初露头角的数据爱好者处轻松访问最新模型,且他们已经准备好随时攻克可能遇到的一切任务。
但是一知半解是危险的,虽然机器学习的大部分可以归因于统计和编程,但同样重要的是领域知识,但它往往被忽略。这一点在投资领域最为明显。
金融时间序列数据的信噪比一直都非常低,这种细微差别令人难以置信,从业人员花费了大量的精力来尝试实现难以捉摸的目标,但只有少数成功。因此,需要对数据进行更深入的了解,并且找出其成功的共通之处。
很多项目都是从选择一只股票开始的,这只股票通常是苹果(Apple)或亚马逊(Amazon)等科技公司的股票,原因很简单,这些公司众所周知,并在消费者的日常生活中根深蒂固。
这是有问题的,因为选股不是一个任意的过程,它是投资决策过程的一部分,本身需要一个模型。
以苹果为例,如果我们将其表现与更广泛的标准普尔500指数(SP 500)进行对比,我们会发现苹果的表现比该指数高出近60%。
乍一看,EWMA对标普500指数的预测非常准确,但如果我们仔细观察市场下滑的时期,就会发现情况并非看上去那样。
尽管蓝线和橙线似乎紧密相连,但EWMA策略仅能融合过去的信息,即它只包含了过去的信息,无法应对日内波动的信息,因此往往导致它预测上涨,但实际是下跌,反之亦然。在此期间采取这种策略,其表现将逊于标普500指数。
结论
在开始一个股票预测项目之前,特别是在你打算投入实际资金的项目之前,先对这个主题做一些研究并了解数据是有好处的。
如果结果好得令人难以置信。由于参与者的数量越来越多,而且参与者的水平也越来越高,市场在价格发现方面极其有效,尤其是在股票方面。
尽管这可能不会排除潜在机会的可能性,但这意味着需要比即时可用的算法和标准预处理技术更多的努力才能找到它。
⑹ 深度学习做股票预测靠谱吗
之前,利用DBN去做股票市场的收益预测,输入变量是市场行情数据,财务报表数据和一些技术因子,效果仅仅勉强跑赢hs300. 当时希望利用DBN,像处理图片一样,可以detect complex and nonlinear relationship between this variables,但是结果并不满意,甚至同样输入了,RF,GBDT都跑到了不错。现在感觉主要问题还是因为这些原始变量的噪声大,另外还有就是正则化并没有做好。
Data pre-processing 非常的重要。
之前研究过Barra 因子,里面的每一个因子,虽然在生成上并没有什么技巧,剔除outlier,归一化,线性回归,正交化。基本上都是这些算子。但是每一个都有一些logic。回看一些股票多因子的Fama French,1992,1993 的研究框架,更是感觉做金融计量的人和做机器学习的人思维的不同,做金融计量的人在数据分析上预处理很多,逻辑比较严密,并且logic大于统计技巧。我想如果在股票量化策略上,借鉴这种金融计量的思想,对于机器学习的技巧取得成功是必不可少的。
结论就是不可以
⑺ 有没有大佬能利用机器学习预测30天后股票涨跌情况啊,我实现不出来,头都大了
考虑两个最简单的模型,第一个是趋势跟随,也就是正在上涨的股票后面大概率还会延续上涨,正在下跌的股票后面大概率还会延续下跌。第二个是均值回归,就是跌得多了,一定会涨;涨的过头了,一定会跌。用这两个作为输出,实现预测。