首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法.  相似文献   

2.
本文考虑的是Hinderer提出的状态空间和行动空间均业般集的非平稳MDP平均模型,利用扩大状态空间的方法,建立了此模型的最优方程,并给出了最优方程有解及蜞 最优策略存在的条件,从最优方程出发,用概率的方法证明了最优策略的存在性,最后还提供了此模型的值迭代算法及其收敛性证明,从而推广了Smith。L.Lassere,B「3」及Larma^「6」等的主要结果。  相似文献   

3.
本文考虑的是可数状态空间不完全信息的非平衡MDP平均模型,借助于模型的转化,建立了不完全信息的非平衡MDP平均模型的最优方程,并进一步给出了最优方程的解及ε(〉,0)-最优策略存在的充分条件。  相似文献   

4.
本文考虑的是非平稳MDP的期望平均准则,在弱遍历条件下,用概率及鞅论的方法证明了。∈(0)-最优马氏策略的存在性,作为特例,较好地解决了Feinberg和Park在1994年提及的开问题.  相似文献   

5.
郭先平 《数学学报》2001,44(2):333-342
本文考虑具有 Borel状态空间和行动空间非平稳 MDP的平均方差准则.首先,在遍历条件下,利用最优方程,证明了关于平均期望目标最优马氏策略的存在性.然后,通过构造新的模型,利用马氏过程的理论,进一步证明了在关于平均期望目标是最优的一类马氏策略中,存在一个马氏策略使得平均方差达到最小.作为本文的特例还得到了 Dynkin E. B.和 Yushkevich A. A.及 Kurano M.等中的主要结果.  相似文献   

6.
可数状态MDP的平均模型   总被引:1,自引:0,他引:1  
本文考虑可数状态空间任意行动空间MDP的平均模型,分析了四个平均报酬准则,在通常的遍历性条件下,用鞅论的方法证明了其最优报酬值的一致性和最优策略的存在性,从而较好地解决了Feinberg和Park[1]再次提及的Open问题.通过导入相应于Feinberg和Park[1]的非循环条件,用概率分析的方法证明了一致最优(f,B)-生成策略的存在性,推广了Feinberg和Park(1994)的主要结果。  相似文献   

7.
§1 介绍和假设我们所讨论的 MDP 是如下意义的五重组,{S,(A(i),i∈S),q,r,}.其中 S为系统的状态空间,其中元素表示状态,为一可列集。而i∈S,A(i)则表示系统处于状态 i 的可用行为集,假设 A(i)均具有限集。q 是转移律族,是时齐的。r 是报酬函数。是一可列稚的列向量,它的第 i 个分量定义为:  相似文献   

8.
郭先平 《数学学报》2000,43(2):269-274
本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优(G,B)-生成策略的存在性.从而将 Feinberg E. A.(1994)的主要结果推广到非平衡可数状态空间情形.  相似文献   

9.
研究可数状态空间任意行动空间非一致性有界费用马氏决策过程(MDP)的强平均最优,给出了使得每个常用的平均最优策略也是强平均最优的条件,并实质性的推广了Cavazos-Cadena和Fernandez-Gaucheran(Math. Meth. Oper. Res., 1996, 43: 281-300)的主要结果.  相似文献   

10.
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标。在弱遍历条件下用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus(1993)的主要结果。  相似文献   

11.
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果,推广到非平稳的情形.利用这个结果证明了最优策略的存在性.  相似文献   

12.
本文将证券价格时间序列分解成趋势变动序列和 Markov链 ,建立了证券组合的 Markov链模型 ,应用 Markov链理论对此模型进行了分析 ,给出了充分大的一个时间内的收益率 ,风险和切点组合的计算公式  相似文献   

13.
一、引言 近年来,时间序列的理论及应用得到了很大的发展,各种模型也应运而生。人们在实际应用中越来越感到现有的线性模型,如AR,ARMA模型等,难以很好地刻划复杂的物理现象。因此,对非线性模型的讨论越来越活跃,已经提出了一些非线性模型。但这些模型一般都较复杂,局限性强,建立模型很麻烦,难以推广。1977年,汤家豪提出的门限自回归模型,简称“TAR”(Threshold Autoregression),较好地克服了这些缺点。它的计算复杂性与一般的AR模型相当,且能刻划线性模型难以刻划的物理现象。本文就是基于这一思想,进一步发展了这一模型,提出了一种新的非线性模型——门限自回归滑动平均模型(TARMA)。  相似文献   

14.
一类索赔为马氏链的风险模型   总被引:1,自引:0,他引:1  
本文研究了索赔为马氏链的离散风险模型.利用鞅方法得到破产概率的Lundberg不等式,并且给出了当索赔为独立同分布时的Lundberg不等式.  相似文献   

15.
刘小茂  张钧 《数学杂志》2002,22(3):255-260
不同步交易乃金融中高频数据处理的重要课题之一。本文对文[1]和[2]给出的金融证券的不同步交易模型进行了推广,并对推广的模型考察了可观察回报的有关统计特性,最后给出了模型的参数估计。  相似文献   

16.
This paper attempts to study the convergence of optimal values and optimal policies of continuous-time Markov decision processes(CTMDP for short)under the constrained average criteria. For a given original model M_∞of CTMDP with denumerable states and a sequence {M_n} of CTMDP with finite states, we give a new convergence condition to ensure that the optimal values and optimal policies of {M_n} converge to the optimal value and optimal policy of M_∞as the state space Snof Mnconverges to the state space S_∞of M_∞, respectively. The transition rates and cost/reward functions of M_∞are allowed to be unbounded. Our approach can be viewed as a combination method of linear program and Lagrange multipliers.  相似文献   

17.
马尔可夫排队过程的数学模型研究   总被引:2,自引:1,他引:1  
本文用研究了一个广义(A|B|c|n|m)的排队系统模型,把其它的各种排队系统看成是该模型的一个特例,使得对排队系统的研究既有较强系统性而又简明扼要。  相似文献   

18.
马尔可夫链模型在灾变预测中的应用   总被引:2,自引:0,他引:2  
利用马尔可夫链模型的原理预测灾变,以郑州市旱涝等级的预测作为实例,介绍了使用这种模型的方法与步骤,预测结果表明,利用马尔可夫链模型预测灾变是可行的。  相似文献   

19.
频率模型平均估计近年来受到了较大的关注,但对有测量误差的观测数据尚未见到任何研究.文章主要考虑了线性测量误差模型的平均估计问题,导出了模型平均估计的渐近分布,基于Hjort和Claeskens(2003)的思想构造了一个覆盖真实参数的概率趋于预定水平的置信区间,并证明了该置信区间与基于全模型正态逼近所构造的置信区间的渐近等价性.模拟结果表明当协变量存在测量误差时,模型平均估计能明显增加点估计的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号