共查询到15条相似文献,搜索用时 100 毫秒
1.
非负费用折扣半马氏决策过程 总被引:1,自引:0,他引:1
本文考虑可数状态非负费用的折扣半马氏决策过程.首先在给定半马氏决策核和策略下构造一个连续时间半马氏决策过程,然后用最小非负解方法证明值函数满足最优方程和存在ε-最优平稳策略,并进一步给出最优策略的存在性条件及其一些性质.最后,给出了值迭代算法和一个数值算例. 相似文献
2.
报酬无界的连续时间折扣马氏决策规划 总被引:2,自引:0,他引:2
本文讨论了报酬函数夫界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划,文中引入了一为新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果。讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件。 相似文献
3.
1.引言我们将在可测(确定性)马氏策略类Π_m~d(c)中讨论连续时间平均马氏决策(简称平均CTMDP):{S,(A(i),(?)(i),i∈S),q,r,(?)}.本文假设状态空间 S 为可列集;行动集 A(i)为一般点集,(A(i),(?)(i),i∈S)为可测空间,任给 a∈A(i),要求{a}∈(?)(i);q 是保守的转移速率族;报酬率 r 是一致有界的可测函数,即存在 M<∞,使|r(i,a)|≤M 对 i∈S,a∈A(i)成立.对π∈Π_m~d(c),i∈S,平均报酬函数(?)定义为: 相似文献
4.
本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在(ε)最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立。 相似文献
5.
本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决策过程均值-方差最优策略存在的条件.利用首次进入分解方法,本文证明均值-方差优化问题可以转化为"等价"的期望折扣优化问题,进而得到关于均值-方差优化问题的"最优方程"和均值-方差最优策略的存在性以及它相应的特征.最后,本文给出若干例子说明折扣最优策略的不唯一性和均值-方差最优策略的存在性. 相似文献
6.
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果,推广到非平稳的情形.利用这个结果证明了最优策略的存在性. 相似文献
7.
1.引言 连续时间首达目标模型有广泛的实际背景,它可应用于可靠性系统的优化问题,排队系统的优化控制问题,自动控制中的决策优化问题,等等。我们准备研究下列几个模型: Ⅰ,折扣矩最优模型; Ⅱ,考虑工作寿命的最优模型; Ⅲ,首达时间依分布最优模型。 相似文献
8.
郭先平 《应用数学与计算数学学报》1995,9(2):53-59
本文考虑的是Hinderer提出的状态空间和行动空间均业般集的非平稳MDP平均模型,利用扩大状态空间的方法,建立了此模型的最优方程,并给出了最优方程有解及蜞 最优策略存在的条件,从最优方程出发,用概率的方法证明了最优策略的存在性,最后还提供了此模型的值迭代算法及其收敛性证明,从而推广了Smith。L.Lassere,B「3」及Larma^「6」等的主要结果。 相似文献
9.
该文考虑的是可数状态空间有限行动空间非齐次马氏决策过程的期望总报酬准则.与以往不同的是,我们是通过扩大状态空间的方法,将非齐次的马氏决策过程转化成齐次的马氏决策过程,于是非常简洁地得到了按传统的方法所得的主要结果. 相似文献
10.
在状态空间和行动集均有限的条件下,[1-5]讨论了时间离散的,平稳的马氏决策规划的摄动模型,其中,[1,3,4]讨论了单摄动模型,[5]讨论了具有加权准则的摄动模型,[6,7]讨论了时间离散的,平稳的马氏报酬过程的摄动模型,但[6,7]仅考虑了摄动对最优值的影响,而没有考虑摄动对最优策略的影响,本文将讨论具有摄动的非平衡平均马氏均策规划和连续时间折扣马氏决策规划。 相似文献
11.
12.
定义了离散时间折扣多目标马氏决策模型,在加权准则下,证明了存在(n,∞)最优马氏策略;在字典序准则下,利用最优策略的结构性质,将其最优问题转化为一系列单目标模型的最优问题。 相似文献
13.
Q. X. Zhu 《Mathematical Methods of Operations Research》2007,65(3):519-538
This paper studies both the average sample-path reward (ASPR) criterion and the limiting average variance criterion for denumerable discrete-time Markov decision processes. The rewards may have neither upper nor lower bounds. We give sufficient conditions on the system’s primitive data and under which we prove the existence of ASPR-optimal stationary policies and variance optimal policies. Our conditions
are weaker than those in the previous literature. Moreover, our results are illustrated by a controlled queueing system.
Research partially supported by the Natural Science Foundation of Guangdong Province (Grant No: 06025063) and the Natural
Science Foundation of China (Grant No: 10626021). 相似文献
14.
Quanxin Zhu 《Mathematical Methods of Operations Research》2007,66(2):299-313
In this paper, we study the average optimality for continuous-time controlled jump Markov processes in general state and action spaces. The criterion to be minimized is the average expected costs. Both the transition rates and the cost rates are allowed to be unbounded. We propose another set of conditions under which we first establish one average optimality inequality by using the well-known “vanishing discounting factor approach”. Then, when the cost (or reward)
rates are nonnegative (or nonpositive), from the average optimality inequality we prove the existence of an average optimal
stationary policy in all randomized history dependent policies by using the Dynkin formula and the Tauberian theorem. Finally, when the cost (or reward) rates have neither upper nor lower bounds, we also prove the existence of an average optimal policy in all (deterministic) stationary policies by constructing a “new”
cost (or reward) rate.
Research partially supported by the Natural Science Foundation of China (Grant No: 10626021) and the Natural Science Foundation
of Guangdong Province (Grant No: 06300957). 相似文献
15.
K. Ohno 《Mathematical Methods of Operations Research》1988,32(2):71-93
This paper proposes a value iteration method which finds an-optimal policy of an undiscounted multichain Markov decision process in a finite number of iterations. The undiscounted multichain Markov decision process is reduced to an aggregated Markov decision process, which utilizes maximal gains of undiscounted Markov decision sub-processes and is formulated as an optimal stopping problem. As a preliminary, sufficient conditions are presented under which a policy is-optimal.
Zusammenfassung In dieser Arbeit wird eine Wertiterationsmethode vorgeschlagen, die eine-optimale Politik für einen undiskontierten nicht-irreduziblen Markovschen Entscheidungsprozeß (MEP) in endlichen vielen Schritten liefert. Der undiskontierte nicht-irreduzible MEP wird auf einen aggregierten MEP reduziert, der maximale Gewinn eines undiskontierten Sub-MEP verwendet und als optimales Stopp-Problem formuliert wird. Zu Beginn werden hinreichende Bedingungen für die-Optimalität einer Politik angegeben.相似文献