最大熵模型在股票市场中的应用
A. 最大熵模型的概述
“熵”最初是热力学中的一个概念,上世纪40年代,香农首先在信息论中引入了信息熵的概念。信息熵用来表示不确定度的度量,不确定度越大,熵值越大。极限情况,当一个随机变量均匀分布时,熵值最大;完全确定时,熵值为0
第一次系统提出最大熵的原理的一般认为是Jaynes,后来有人提出了相应的算法来估计对应的统计模型的参数。由于当时计算条件的限制,最大熵模型在人工智能和自然语言处理领域都没有得到广泛应用。上世纪90年代,IBM的研究员应用重新深入的研究了这个问题,系统地描述了条件最大熵的框架和实现算法,并在自然语言处理任务上取得了非常好的效果,引起了人们的重视。很快条件最大熵模型技术得到了广泛的传播,在自然语言处理的各个领域都取得了巨大的成功,在此基础上的一些深入研究工作也不断展开。最大熵模型已经成为近年来自然语言处理领域最成功的机器学习方法。
假设我们的分类任务或者预测任务的类别为y,而我们能够依据的上下文信息记为x。我们希望在不同的给定的上下文x条件下,统计模型能够给出判为不同类别y的概率值。因此,我们希望能够建立一种区分性的条件概率模型(注意,我们这里仍然用了的表示形式,但是此处的意义表示的是整个的概率分布,也不再表示具体的实例)。我们用来表示所有这种条件概率模型的集合,而我们期望得到的模型就是中的一种。所谓的条件最大熵模型,就是在一定约束下条件熵最大的模型。
所谓的约束,也就是我们已知的信息,可以认为我们希望模型在这些信息上能和训练数据匹配。而熵最大,则表明除约束外,我们不再做未知的假设。在条件最大熵模型中,约束是通过特征的形式来体现的。这里的特征和语音识别等领域的特征有所不同,它表示成和的函数的形式,表示了x的某种属性和y的共现情况。特征函数理论上可以取任何实数值(早期因为训练算法的原因只能取正值),在自然语言处理领域一般表示为0-1的指示函数的形式,例如:
我们定义特征函数f的经验期望如下:
表示样本在训练语料中出现的经验概率:
而特征函数f的模型期望为:
最大熵模型的约束就是使得任意特征的经验期望和模型期望相等:
我们认为我们定义的特征集合描述了训练样本的信息,而我们的模型在这些信息的层面上和训练数据保持了一致。
我们将满足这些约束的条件概率的中的一个子集定义为,而条件熵的定义为:
那我们需要得到的就是在中条件熵最大的模型p:
根据概率公式的定义,我们还有另外一个约束:
那么[]和[]构成了一个约束最优化问题,可以用拉格朗日乘子法来计算:
可以解得模型p的形式为:
这就是条件最大熵模型的形式,而对应的
这里的拉格朗日乘子相当于特征的权重,为了以后讨论的方便,换用表示:
如果已知模型是上式的形式,那么在训练数据上的log似然值为:
通过上式我们可以发现,通过最大似然求解最优权将和的结果是一样的。也就是说在约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。
B. 谁知道最大熵原理在投资中的应用如何建立模型呢
test1234567890
C. 最大熵在社会生活中有什么哪些应用呢
简单说,就是若是一个封闭环境,专制下的等级制度(低熵)到民主下的自由平等(高熵)是一个自发过程和必然转变。专制等级制度(低熵)下,每一个个体被禁锢在特定的位置,自由度很低。要维持维护这种专制等级的低熵,就必须要有武装暴力、思想禁锢、言论管制等等强加的墙和壁垒,而这一切维稳需要不停地耗费资源、能量来输入,从而形成正反馈循环,直至崩溃瓦解到状态的改变。(最坏结果是变成所有个体都死亡寂灭,人人绝对平等的高熵状态。)而完全自由平等(高熵)下,每一个个体在每一个位置的概率都是一样的,没有特权、没有壁垒,从而维护这样一个状态,无需额外的输入和消耗。(当然也会是一个极度混乱没有秩序的社会,你拥有的东西也是别人拥有的。)然而社会不能真正的绝对自由和无政府,为了保障每一个人的自由而不侵犯他人的权利,就需要基本的契约、法治和敬畏,政府法治、道德规范、宗教信仰的作用就是以较小的输入和消耗,从而维护每个人被保障的自由。所以,一个有秩序的社会,根据其对每个个体自由的尊重和秩序维护成本的高低,可基本判断这个稳定的持续性。
满意请采纳
D. 最大熵原理的发展状况
前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种各样的但是又不完全确定的信息,我们需要用一个统一的模型将这些信息综合起来。如何综合得好,是一门很大的学问。
让我们看一个拼音转汉字的简单的例子。假如输入的拼音是wang-xiao-bo,利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字“王小波”和“王晓波”。至于要唯一确定是哪个名字就难了,即使利用较长的上下文也做不到。当然,我们知道如果通篇文章是介绍文学的,作家王小波的可能性就较大;而在讨论两岸关系时,台湾学者王晓波的可能性会较大。在上面的例子中,我们只需要综合两类不同的信息,即主题信息和上下文信息。虽然有不少凑合的办法,比如:分成成千上万种的不同的主题单独处理,或者对每种信息的作用加权平均等等,但都不能准确而圆满地解决问题,这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中,我们需要综合几十甚至上百种不同的信息,这种小圆套大圆的方法显然行不通。
E. 能够用数学模型预测股市吗
能,如最大熵模型。决定股票涨跌的因素可能有几十甚至上百种,而最大熵模型恰恰能找到一个同时满足成千上万种不同条件的模型。本答案摘自《数学之美》(第二版)(吴军 著),如想了解详细情况可参看本书第20章《不要把鸡蛋放到一个篮子里——谈谈最大熵模型》
F. 最大熵原理的应用实例
例3.1为一随机变量, ,利用最大熵原理来估计 。
解:系统的熵值
约束条件为
构造Lagrange函数
求解6元方程组(将作为变量)
没有约束条件时的最大熵分布为
此时的熵为。由于约束条件提供了更多的信息,减小了系统的不确定性。
例3.2
解:由定理2.1,作泛函其欧拉方程为
解得:
将这一结果回代入两个约束条件当中,可解得使目标泛函达到极值的概率密度
这是正态分布的概率密度。
得泛函 取极值的概率密度 应满足
对应此式的辅助泛函
可解得
可回代上式入约束条件解出。
连续熵的极大问题比较复杂,约束条件多种多样整形约束、微分约束、等周约束等等。可能有些问题还会附加一些边界条件,上面的例子只是一些基本算例。对于复杂问题,在误差允许范围内进行数值计算也是解决问题的一个途径。
G. 如何理解最大熵模型里面的特征
“熵”最初是热力学中的一个概念,上世纪40年代,香农首先在信息论中引入了信息熵的概念。信息熵用来表示不确定度的度量,不确定度越大,熵值越大。极限情况,当一个随机变量均匀分布时,熵值最大;完全确定时,熵值为0第一次系统提出最大熵的原理。
H. ARCH模型在股票收益率分析中的应用是怎样的
假设用标准差表示的条件波动率在某一期间围绕0.5%和3%之间波动。如果投资者有一个对应与标准普尔500指数的资产组合,那么明天该投资者有多少资本面临损失?假设预测标准差是0.5%,他的损失(99%的概率)将不会超过资产组合价值的1.2%。如果预测标准差是3%,相应的资本损失将高达6.7%。同样,在银行和其他金融机构计算资产组合的市场风险时,在险价值(VaR:ValueatRisk)也至关重要。从1996以来,巴塞尔(Basle)国际协议规定了银行在控制资本充足率时要使用在险价值。ARCH成为金融部门风险评估中不可缺少的工具。
I. 最大熵模型有什么用
最大熵模型可以用来解决分类问题,思路是所有分类模型中熵最大的模型就是最优的模型
J. 最大熵原理的相关模型
最漂亮的办法是最大熵(maximum entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。让我们来看一个实际例子。
有一次,我去 AT&T 实验室作关于最大熵模型的报告,我带去了一个色子。我问听众“每个面朝上的概率分别是多少”,所有人都说是等概率,即各点的概率均为1/6。这种猜测当然是对的。我问听众们为什么,得到的回答是一致的:对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法。(你不应该主观假设它象韦小宝的色子一样灌了铅。)从投资的角度看,就是风险最小的做法。从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。接着,我又告诉听众,我的这个色子被我特殊处理过,已知四点朝上的概率是三分之一,在这种情况下,每个面朝上的概率是多少?这次,大部分人认为除去四点的概率是 1/3,其余的均是 2/15,也就是说已知的条件(四点概率为 1/3)必须满足,而对其余各点的概率因为仍然无从知道,因此只好认为它们均等。注意,在猜测这两种不同情况下的概率分布时,大家都没有添加任何主观的假设,诸如四点的反面一定是三点等等。(事实上,有的色子四点反面不是三点而是一点。)这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。
最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。
回到我们刚才谈到的拼音转汉字的例子,我们已知两种信息,第一,根据语言模型,wang-xiao-bo 可以被转换成王晓波和王小波;第二,根据主题,王小波是作家,《黄金时代》的作者等等,而王晓波是台湾研究两岸关系的学者。因此,我们就可以建立一个最大熵模型,同时满足这两种信息。匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。而且它们都有同一个非常简单的形式 --指数函数。