共查询到20条相似文献,搜索用时 0 毫秒
1.
连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形 总被引:1,自引:0,他引:1
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义. 相似文献
2.
3.
本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, 费用率函数可能无界, 且允许行动空间非空任意的情形. 本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性, 而且还进一步探讨了( ∈>0 )-最优平稳策略,具有单调性质的最优平稳策略, 以及(∈≥0) -最优决策过程的存在性, 得到了一些有意义的新结果. 最后, 提供了一个迁移率受控的生灭系统例子, 它满足本文的所有条件, 而传统的假设(见文献[1-14])均不成立. 相似文献
4.
本文讨论了可数状态空间、可数决策空间、次随机转移率族、有界报酬函数的马氏决策规划(MDP)的折扣模型,给出了一个非ε-最优策略的检验准则. 相似文献
5.
有供应方限制的临时价格折扣与最优存贮模型 总被引:1,自引:0,他引:1
供应方提供临时价格折扣,一般都附带特别定货量限制。购买方可在所提供折扣价格条件下从有限种订货量中选择最小的订货量,但不一定是最优订货量。本文提出有供应方限制的临时价格折扣条件下的最优存贮模型和订货策略。并给出应用实例。 相似文献
6.
定义了离散时间折扣多目标马氏决策模型,在加权准则下,证明了存在(n,∞)最优马氏策略;在字典序准则下,利用最优策略的结构性质,将其最优问题转化为一系列单目标模型的最优问题。 相似文献
7.
从实际需要出发,林元烈提出了以分布最优模型,作者在[1]基础上考虑更广泛的模型. 假定在时刻t=1,2,3,…处观察系统.该模型由如下意义的五重体(S,(A(i),i∈S),q,r,v)组成。其中S是所有状态组成的Polish空间,H为失效集,H=S-H为工作集.A(i)(i∈S)为状态i可用的行动集且有限.q是系统状态的齐次转移律。r(·,·)是定义在S×A上的单值实函数且0≤r(·,·)≤M,其中M是一正数.目标函数V_i(π,x)是定义在∏×S×R上的单值实函数,其中∏是全体策略集. 相似文献
8.
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义. 相似文献
9.
最优消费投资的动态经济模型研究(I) 总被引:8,自引:0,他引:8
本文研究了金融市场上投资者消费效用优化的随机控制问题。设金融市场上有一个局部无风险的资产和d个风险资产,其价格服从连续的Ito模型。在效用折扣过程为有限分段函数情形下,得出了关于目前财富反馈形式的最优消费投资公式。 相似文献
10.
本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。 相似文献
11.
1.引言我们将在可测(确定性)马氏策略类Π_m~d(c)中讨论连续时间平均马氏决策(简称平均CTMDP):{S,(A(i),(?)(i),i∈S),q,r,(?)}.本文假设状态空间 S 为可列集;行动集 A(i)为一般点集,(A(i),(?)(i),i∈S)为可测空间,任给 a∈A(i),要求{a}∈(?)(i);q 是保守的转移速率族;报酬率 r 是一致有界的可测函数,即存在 M<∞,使|r(i,a)|≤M 对 i∈S,a∈A(i)成立.对π∈Π_m~d(c),i∈S,平均报酬函数(?)定义为: 相似文献
12.
本文借助逐段决定马氏过程(PDMP)广义生成算子理论,寻求求解PDMP期望折扣罚函数φ(u)的新方法,得到了推导φ(u)满足的(脉冲)积分微分方程通用的一种程式化方法.特别地,对连续时间复合二项风险模型,得到了φ(u)满足的一个迭代公式,并对索赔额服从几何分布的特例得到了破产概率的准确表达式. 相似文献
13.
研究复合二项对偶模型的最优分红问题,通过分析HJB方程得到了最优分红策略和相应的最优值函数之间的关系以及最优值函数的简单计算方法.通过讨论最优红利策略的一些性质得到了最优值函数的可无限逼近的上界和下界. 相似文献
14.
本文在带注资的经典风险模型的最优分红控制过程的基础上,进一步引入最优停止策略.目标是要找到最优的停止时刻,使得到该时刻为止,股东的折现分红与带有一定费用的折现注资二者之差的期望值最大化.通过建立值函数V(x)满足的HJB方程,我们找到了最优停止时刻τ~*.特别的,当索赔服从指数分布时,通过计算最终得到了值函数V(x)和最优停止时刻.τ~*的清晰表达式. 相似文献
15.
本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决策过程均值-方差最优策略存在的条件.利用首次进入分解方法,本文证明均值-方差优化问题可以转化为"等价"的期望折扣优化问题,进而得到关于均值-方差优化问题的"最优方程"和均值-方差最优策略的存在性以及它相应的特征.最后,本文给出若干例子说明折扣最优策略的不唯一性和均值-方差最优策略的存在性. 相似文献
16.
17.
对盈余投资于金融市场的跳-扩散风险模型的最优投资策略和破产概率进行了研究,得到最优投资策略和最小破产概率的显示解,发现破产概率满足Lundberg等式.最后通过数值计算,得到最小破产概率与无风险利率,投资和相关系数之间的关系,以及无风险利率和相关系数对最优投资策略的影响. 相似文献
18.
19.
《数学的实践与认识》2019,(23)
研究离散Sparre-Andersen模型下带分红交易费的最优分红问题.在分红有界的条件下,通过更新初始时间得到最优值函数并证明最优值函数为Hamilton-Jacobi-Bellman方程的唯一有界解.另外,运用Bellman递推算法通过最优值变换获得最优分红. 相似文献
20.
Ornstein-Uhlenbeck模型下DC养老金计划的最优投资策略 总被引:1,自引:0,他引:1
本文研究了Ornstein-Uhlenbeck模型下确定缴费型养老金计划(简称DC计划)的最优投资策略,其中以最大化DC计划参与者终端财富(退休时其账户金额)的CRRA效用为目标.假定投资者可投资于无风险资产和一种风险资产,风险资产的瞬时收益率由Ornstein-Uhlenbeck过程驱动,该过程能反映市场所处的状态.利用随机控制理论,给出了相应的HJB方程与验证定理;并通过求解相应的HJB方程,得到了最优投资策略和最优值函数的解析式.最后分析了瞬时收益率对最优投资策略的影响,发现当市场向良性状态发展时,投资在风险资产上的财富比例呈上升趋势;当初始财富足够大且市场状态不变时,投资在风险资产上的财富比例几乎不受时间的影响. 相似文献