预测股票市场收益r语言
A. 股票前加R是什么意思
你好,股票代码旁边的R是代表这个股票是融资融券标的意思。R是融资融券股票的标志,股票代码前面带有“R”,即是说该股可以进行融资融券,是融资融券的标的股票。这些股票代码前面有“R”的股票标的可参与融资融券!融资融券开户条件开户是:交易满半年,前20个交易日日均资产在50万以上即可。
融资融券是指证券公司向投资者出借资金供其买入证券,或出借证券供其卖出的经营活动。投资者向证券公司借入资金买入证券、借入证券卖出的交易活动,则称为融资融券交易,又称信用交易。
融资融券交易分为融资交易和融券交易两类。投资者向证券公司借入资金买入证券,为融资交易;投资者向证券公司借入证券卖出,为融券交易。
风险揭示:本信息不构成任何投资建议,投资者不应以该等信息取代其独立判断或仅根据该等信息作出决策,不构成任何买卖操作,不保证任何收益。如自行操作,请注意仓位控制和风险控制。
B. 股票预期收益率怎么计算
股票的预期收益率e(ri)=rf+β[e(rm)-rf]
其中:
rf:
无风险收益率----------一般用国债收益率来衡量
e(rm):市场投资组合的预期收益率
βi:
投资的β值--------------
市场投资组合的β值永远等于1,风险大于平均资产的投资β值大于1,反之小于1,无风险投资β值等于0
C. 机器学习有哪些算法
朴素贝叶斯分类器算法是最受欢迎的学习方法之一,按照相似性分类,用流行的贝叶斯概率定理来建立机器学习模型,特别是用于疾病预测和文档分类。 它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。
什么时候使用机器学习算法 - 朴素贝叶斯分类器?
(1)如果您有一个中等或大的训练数据集。
(2)如果实例具有几个属性。
(3)给定分类参数,描述实例的属性应该是条件独立的。
A.朴素贝叶斯分类器的应用
(1)这些机器学习算法有助于在不确定性下作出决策,并帮助您改善沟通,因为他们提供了决策情况的可视化表示。
(2)决策树机器学习算法帮助数据科学家捕获这样的想法:如果采取了不同的决策,那么情境或模型的操作性质将如何剧烈变化。
(3)决策树算法通过允许数据科学家遍历前向和后向计算路径来帮助做出最佳决策。
C.何时使用决策树机器学习算法
(1)决策树对错误是鲁棒的,并且如果训练数据包含错误,则决策树算法将最适合于解决这样的问题。
(2)决策树最适合于实例由属性值对表示的问题。
(3)如果训练数据具有缺失值,则可以使用决策树,因为它们可以通过查看其他列中的数据来很好地处理丢失的值。
(4)当目标函数具有离散输出值时,决策树是最适合的。
D.决策树的优点
(1)决策树是非常本能的,可以向任何人轻松解释。来自非技术背景的人,也可以解释从决策树绘制的假设,因为他们是不言自明的。
(2)当使用决策树机器学习算法时,数据类型不是约束,因为它们可以处理分类和数值变量。
(3)决策树机器学习算法不需要对数据中的线性进行任何假设,因此可以在参数非线性相关的情况下使用。这些机器学习算法不对分类器结构和空间分布做出任何假设。
(4)这些算法在数据探索中是有用的。决策树隐式执行特征选择,这在预测分析中非常重要。当决策树适合于训练数据集时,在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量,并且默认情况下完成特征选择。
(5)决策树有助于节省数据准备时间,因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值也不会影响决策树,因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂。
E.决策树的缺点
(1)树中决策的数量越多,任何预期结果的准确性越小。
(2)决策树机器学习算法的主要缺点是结果可能基于预期。当实时做出决策时,收益和产生的结果可能与预期或计划不同。有机会,这可能导致不现实的决策树导致错误的决策。任何不合理的期望可能导致决策树分析中的重大错误和缺陷,因为并不总是可能计划从决策可能产生的所有可能性。
(3)决策树不适合连续变量,并导致不稳定性和分类高原。
(4)与其他决策模型相比,决策树很容易使用,但是创建包含几个分支的大决策树是一个复杂和耗时的任务。
(5)决策树机器学习算法一次只考虑一个属性,并且可能不是最适合于决策空间中的实际数据。
(6)具有多个分支的大尺寸决策树是不可理解的,并且造成若干呈现困难。
F.决策树机器学习算法的应用
(1)决策树是流行的机器学习算法之一,它在财务中对期权定价有很大的用处。
(2)遥感是基于决策树的模式识别的应用领域。
(3)银行使用决策树算法按贷款申请人违约付款的概率对其进行分类。
(4)Gerber产品公司,一个流行的婴儿产品公司,使用决策树机器学习算法来决定他们是否应继续使用塑料PVC(聚氯乙烯)在他们的产品。
(5)Rush大学医学中心开发了一个名为Guardian的工具,它使用决策树机器学习算法来识别有风险的患者和疾病趋势。
Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习。
R语言中的数据科学库实现决策树机器学习算法是插入符号。
3.7 随机森林机器学习算法
让我们继续我们在决策树中使用的同样的例子,来解释随机森林机器学习算法如何工作。提利昂是您的餐厅偏好的决策树。然而,提利昂作为一个人并不总是准确地推广你的餐厅偏好。要获得更准确的餐厅推荐,你问一对夫妇的朋友,并决定访问餐厅R,如果大多数人说你会喜欢它。而不是只是问Tyrion,你想问问Jon Snow,Sandor,Bronn和Bran谁投票决定你是否喜欢餐厅R或不。这意味着您已经构建了决策树的合奏分类器 - 也称为森林。
你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据。你也不确定你的餐厅偏好,是在一个困境。你告诉提利昂你喜欢开顶屋顶餐厅,但也许,只是因为它是在夏天,当你访问的餐厅,你可能已经喜欢它。在寒冷的冬天,你可能不是餐厅的粉丝。因此,所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点,以提出他们的建议您的餐厅偏好。
通过为您的朋友提供略微不同的餐厅偏好数据,您可以让您的朋友在不同时间向您询问不同的问题。在这种情况下,只是稍微改变你的餐厅偏好,你是注入随机性在模型级别(不同于决策树情况下的数据级别的随机性)。您的朋友群现在形成了您的餐厅偏好的随机森林。
随机森林是一种机器学习算法,它使用装袋方法来创建一堆随机数据子集的决策树。模型在数据集的随机样本上进行多次训练,以从随机森林算法中获得良好的预测性能。在该整体学习方法中,将随机森林中所有决策树的输出结合起来进行最终预测。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出。
例如,在上面的例子 - 如果5个朋友决定你会喜欢餐厅R,但只有2个朋友决定你不会喜欢的餐厅,然后最后的预测是,你会喜欢餐厅R多数总是胜利。
A.为什么使用随机森林机器学习算法?
(1)有很多好的开源,在Python和R中可用的算法的自由实现。
(2)它在缺少数据时保持准确性,并且还能抵抗异常值。
(3)简单的使用作为基本的随机森林算法可以实现只用几行代码。
(4)随机森林机器学习算法帮助数据科学家节省数据准备时间,因为它们不需要任何输入准备,并且能够处理数字,二进制和分类特征,而无需缩放,变换或修改。
(5)隐式特征选择,因为它给出了什么变量在分类中是重要的估计。
B.使用随机森林机器学习算法的优点
(1)与决策树机器学习算法不同,过拟合对随机森林不是一个问题。没有必要修剪随机森林。
(2)这些算法很快,但不是在所有情况下。随机森林算法当在具有100个变量的数据集的800MHz机器上运行时,并且50,000个案例在11分钟内产生100个决策树。
(3)随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一,因为它们对噪声更加鲁棒。
(4)很难建立一个坏的随机森林。在随机森林机器学习算法的实现中,容易确定使用哪些参数,因为它们对用于运行算法的参数不敏感。一个人可以轻松地建立一个体面的模型没有太多的调整
(5)随机森林机器学习算法可以并行生长。
(6)此算法在大型数据库上高效运行。
(7)具有较高的分类精度。
C.使用随机森林机器学习算法的缺点
他们可能很容易使用,但从理论上分析它们是很困难的。
随机森林中大量的决策树可以减慢算法进行实时预测。
如果数据由具有不同级别数量的分类变量组成,则算法会偏好具有更多级别的那些属性。 在这种情况下,可变重要性分数似乎不可靠。
当使用RandomForest算法进行回归任务时,它不会超出训练数据中响应值的范围。
D.随机森林机器学习算法的应用
(1)随机森林算法被银行用来预测贷款申请人是否可能是高风险。
(2)它们用于汽车工业中以预测机械部件的故障或故障。
(3)这些算法用于医疗保健行业以预测患者是否可能发展成慢性疾病。
(4)它们还可用于回归任务,如预测社交媒体份额和绩效分数的平均数。
(5)最近,该算法也已经被用于预测语音识别软件中的模式并对图像和文本进行分类。
Python语言中的数据科学库实现随机森林机器学习算法是Sci-Kit学习。
R语言的数据科学库实现随机森林机器学习算法randomForest。
D. 如何预测未来一年的股票收益
如果能预计的话你只用想尽一切方法去搞到钱然后投资进去就是了。
没有任何办法能够准确预测出未来的收益率,但是可以根据基本面的分析来得出大概的范围和相应的操作手法,而这些不只是年报可以得出的,需要做的功课相当的多
E. 什么是波动率指数
1987的全球股灾后,为稳定股市与保护投资者,纽约证券交易所(NYSE)于1990年引进了断路器机制(Circuit-breakers),当股价发生异常变动时,暂时停止交易,试图降低市场的波动性来恢复投资者的信心。但断路器机制引进不久,对于如何衡量市场波动性市场产生了许多新的认识,渐渐产生了动态显示市场波动性的需求。因此,在NYSE采用断路器来解决市场过度波动问题不久,芝加哥期权交易所从1993年开始编制市场波动率指数(Market Volatility Index,VIX),以衡量市场的波动率。
CBOE 在1973年4月开始股票期权交易后,就一直有通过期权价格来构造波动率指数的设想,以反映市场对于的未来波动程度的预期。其间有学者陆续提出各种计算方法,Whaley(1993)[1] 提出了编制市场波动率指数作为衡量未来股票市场价格波动程度的方法。同年,CBOE开始编制VIX 指数,选择S&P100 指数期权的隐含波动率为编制基础,同时计算买权与卖权的隐含波动率,以考虑交易者使用买权或卖权的偏好。
VIX表达了期权投资者对未来股票市场波动性的预期,当指数越高时,显示投资者预期未来股价指数的波动性越剧烈;当VIX指数越低时,代表投资者认为未来的股价波动将趋于缓和。由于该指数可反应投资者对未来股价波动的预期,并且可以观察期权参与者的心理表现,也被称为“投资者情绪指标”(The investor fear gauge )。经过十多年的发展和完善,VIX指数逐渐得到市场认同,CBOE于2001年推出以NASDAQ 100指数为标的的波动性指标 (NASDAQ Volatility Index ,VXN); CBOE2003年以S&P500指数为标的计算VIX指数,使指数更贴近市场实际。2004年推出了第一个波动性期货(Volatility Index Futures)VIX Futures, 2004年推出第二个将波动性商品化的期货,即方差期货 (Variance Futures),标的为三个月期的S&P500指数的现实方差(Realized Variance)。2006年,VIX指数的期权开始在芝加哥期权交易所开始交易
计算波动率指数(VIX)需要的核心数据是隐含波动率,隐含波动率由期权市场上最新的交易价格算出,可以反映市场投资者对于未来行情的预期。其概念类似于债券的到期收益率(Yield To Maturity):随着市场价格变动,利用适当的利率将债券的本金和票息贴现,当债券现值等于市场价格时的贴现率即为债券的到期收益率,也就是债券的隐含报酬率。在计算过程中利用债券评价模型,通过使用市场价格可反推出到期收益率,这一收益率即为隐含的到期收益率。
F. 如何用R语言提取股票行情数据
你好,关于股票价格有关的开盘价格,当日最高价格,当日最低价格,收盘价格,股票交易量;和调整后的价格;
DIA.Open 当日开盘价格
DIA.High 当日最高价格
DIA.Low 当日最低价格
DIA.Close 当日收盘价格
DIA.Volume 当日股票交易量
DIA.Adjusted 当日调整后的价格
G. 关于股票的预期收益率
在衡量市场风险和收益模型中,使用最久,也是至今大多数公司采用的是资本资产定价模型(CAPM),其假设是尽管分散投资对降低公司的特有风险有好处,但大部分投资者仍然将他们的资产集中在有限的几项资产上。
比较流行的还有后来兴起的套利定价模型(APM),它的假设是投资者会利用套利的机会获利,既如果两个投资组合面临同样的风险但提供不同的预期收益率,投资者会选择拥有较高预期收益率的投资组合,并不会调整收益至均衡。
我们主要以资本资产定价模型为基础,结合套利定价模型来计算。
首先一个概念是β值。它表明一项投资的风险程度:
资产i的β值=资产i与市场投资组合的协方差/市场投资组合的方差
市场投资组合与其自身的协方差就是市场投资组合的方差,因此市场投资组合的β值永远等于1,风险大于平均资产的投资β值大于1,反之小于1,无风险投资β值等于0。
需要说明的是,在投资组合中,可能会有个别资产的收益率小于0,这说明,这项资产的投资回报率会小于无风险利率。一般来讲,要避免这样的投资项目,除非你已经很好到做到分散化。
下面一个问题是单个资产的收益率:
一项资产的预期收益率与其β值线形相关:
资产i的预期收益率E(Ri)=Rf+βi[E(Rm)-Rf]
其中: Rf: 无风险收益率
E(Rm):市场投资组合的预期收益率
βi: 投资i的β值。
E(Rm)-Rf为投资组合的风险溢酬。
整个投资组合的β值是投资组合中各资产β值的加权平均数,在不存在套利的情况下,资产收益率。
对于多要素的情况:
E(R)=Rf+∑βi[E(Ri)-Rf]
其中,E(Ri): 要素i的β值为1而其它要素的β均为0的投资组合的预期收益率。
首先确定一个可接受的收益率,即风险溢酬。风险溢酬衡量了一个投资者将其资产从无风险投资转移到一个平均的风险投资时所需要的额外收益。风险溢酬是你投资组合的预期收益率减去无风险投资的收益率的差额。这个数字一般情况下要大于1才有意义,否则说明你的投资组合选择是有问题的。
风险越高,所期望的风险溢酬就应该越大。
对于无风险收益率,一般是以政府长期债券的年利率为基础的。在美国等发达市场,有完善的股票市场作为参考依据。就目前我国的情况,从股票市场尚难得出一个合适的结论,结合国民生产总值的增长率来估计风险溢酬未尝不是一个好的选择。
H. 数据挖掘与R语言的目录
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
I. R语言怎么把股票日收盘价转换成对数收益率
知道一系列收盘价向量X,length=1000,求对数收益率的R语言代码
acf(int[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly
acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly
log return')
Box.test(int[,2], lag = 5, type = "Ljung-Box")
Box.test(int[,2], lag = 10, type = "Ljung-Box")
Box.test(int.l[,2], lag = 5, type = "Ljung-Box")
Box.test(int.l[,2], lag = 10, type = "Ljung-Box")
运行结错误办
> int <- read.table("d-intc7208.txt", head=T)
错误于file(file, "rt") : 打链结
外: 警告信息:
In file(file, "rt") :
打文件'd-intc7208.txt': No such file or directory
+ acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int monthly
错误: 意外符号 in:
"
acf(int.l[,2], lag.max = 15,type = "correlation", plot = TRUE,main='int"
> log return')
错误: 意外符号 in "log return"