共查询到20条相似文献,搜索用时 15 毫秒
1.
本文讨论Harrison意义下无界报酬折扣模型的最优策略的性质与结构,它们实际上是可数状态空间与行动集上和一般状态与行动空间上两种有界折扣模型的结果,在这种无界折扣模型上的实现.主要结果如下.定理1 若 相似文献
2.
3.
本文讨论Lippman型无界报酬折扣半马氏决策规划ε最优策略的性质,在§2中证明了:若策略π~*=(π_0~*、π_1~*,…)是ε最优的,则对任何自然数n,策略(π_0~*,π_1~*,…,π_(n+)~*)为(1-β~n)~(-1)ε最优;若策略π~*=(f_0,f_1,…,f_n,π_(n+1),…)是ε最优的,则策略f_n~∞为某ε_n最优。在§3中讨论策略的组合与分解,在§4中给出了一个策略π~*为最优的充要条件和为ε最优的充分条件。 相似文献
4.
URSMDP是由如下意义的六重组{S,A(i),q,t,r,V_a}组成:S是状态空间,为一可列集,A(i)是在状态i∈S下可用的行动集,为一任意集,q是时齐的状态转移律族,t是状态转移时间分布,r是定义在Γ≡{(i,a);a∈A(i),i∈S}上的贝尔函数,V_a为折扣期望总报酬,对给定的折扣速率因子α>0和策略π∈Π, 相似文献
5.
本文用概率论的方法证明了报酬函数绝对平均相对有界条件下平稳策略的优势;指出存在平稳策略是ε-β最优策略,若存在最优策略必存在平稳策略为最优。 相似文献
6.
7.
从实际需要出发,林元烈提出了以分布最优模型,作者在[1]基础上考虑更广泛的模型. 假定在时刻t=1,2,3,…处观察系统.该模型由如下意义的五重体(S,(A(i),i∈S),q,r,v)组成。其中S是所有状态组成的Polish空间,H为失效集,H=S-H为工作集.A(i)(i∈S)为状态i可用的行动集且有限.q是系统状态的齐次转移律。r(·,·)是定义在S×A上的单值实函数且0≤r(·,·)≤M,其中M是一正数.目标函数V_i(π,x)是定义在∏×S×R上的单值实函数,其中∏是全体策略集. 相似文献
8.
本文讨论了可数状态空间、可数决策空间、次随机转移率族、有界报酬函数的马氏决策规划(MDP)的折扣模型,给出了一个非ε-最优策略的检验准则. 相似文献
9.
对折扣目标马氏决策规划,Derman 讨论了状态空间 S 可列、措施集 A_i(i∈S)均有限且报酬 r 有界时的最优策略问题.Harrison 提出了 S、A_i(i∈S)均可列的一种r 无界模型.文献[3]改进了 Harrison 条件提出报酬函数绝对平均相对有界模型,它是指存在一个常数 d>0和{r(i)>0,i∈S},r(i)有限,对一切 l∈S,a∈A_l 均有:i)|r(l,a)|≤r(l)<+∞;ii)∑q(j|l,a)r(j)≤r(l)+d.指出对于这个模型,当 S、 相似文献
10.
最优捕鱼策略模型 总被引:1,自引:0,他引:1
本文讨论了渔业资源开发项目中在实现可收获的前提下对某种鱼的最优捕捞策略。 针对问题一: 通过对4龄鱼在年末的两种不同状态(全部死亡;仍为4龄鱼)的考虑,得到了两个模型,再进一步考虑鱼的产卵和孵化是一个连续的过程,利用两个离散变量的几何平均来代替连续变量建立第三个模型,最后求解在计算机上实现。 针对问题二: 1.先假设每年捕捞强度相等,建立了一个简单模型; 2.再假设每年捕捞强度不相等,建立一个复杂模型; 3.最后给出鱼群生产能力破坏不太大的含义(即鱼群减少率的上限),在它的约束之下再建立一个模型。 本文最大的特点是:离散和连续相结合,在本文的后面又将各模型的结果进行了比较,并给出了理论上的解湿,得到令人满意的结果。 相似文献
11.
有供应方限制的临时价格折扣与最优存贮模型 总被引:1,自引:0,他引:1
供应方提供临时价格折扣,一般都附带特别定货量限制。购买方可在所提供折扣价格条件下从有限种订货量中选择最小的订货量,但不一定是最优订货量。本文提出有供应方限制的临时价格折扣条件下的最优存贮模型和订货策略。并给出应用实例。 相似文献
12.
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义. 相似文献
13.
连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形 总被引:1,自引:0,他引:1
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义. 相似文献
14.
本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。 相似文献
15.
16.
一般决策模型最优策略的结构 总被引:1,自引:0,他引:1
贾让成 《高校应用数学学报(A辑)》1989,4(3):350-355
本文讨论了[1]中所定义的正规一般决策模型DM的最优策略的结构。证明了在假设C下,任一策略π为最优策略的充要条件是:其几乎处处可表示为所有确定性强最优策略的一个凸组合。 相似文献
17.
1.引言 连续时间首达目标模型有广泛的实际背景,它可应用于可靠性系统的优化问题,排队系统的优化控制问题,自动控制中的决策优化问题,等等。我们准备研究下列几个模型: Ⅰ,折扣矩最优模型; Ⅱ,考虑工作寿命的最优模型; Ⅲ,首达时间依分布最优模型。 相似文献
18.
19.
一类存贮模型及其最优存贮策略 总被引:3,自引:1,他引:2
当工厂仓库容量有限时,常常需要租借仓库来进行存贮.但是,由于租借仓库的存贮单价通常比自己仓库的存贮单价高,所以不能用经典的经济批量公式来计算,有必要重新进行研究.本文研究了原料仓库和产品仓库容量均有限条件下的定料生产销售存贮问题,建立了相应的存贮模型,给出了最优定料生产存贮策略. 相似文献
20.
构建了两个价位的指令驱动市场模型.交易者根据自己的估值选择提交限价指令或市价指令.假设交易量作为交易者的禀赋,可在一个连续区间上任意取值,从而提出限价收益曲线的概念,并结合该曲线给出基于交易量的最优指令提交策略时.最优指令提交策略不仅依赖于交易者的私人估值、市场深度和价差,同时依赖于交易者所持交易量.模型揭示以下几点微观特征:1.私人估值偏离证券基本价值较大的交易者倾向于提交市价订单,而私人估值接近证券基本价值的交易者倾向于提交限价订单;2.当市场深度较小时,交易者倾向于限价单;而市场深度较大时,交易者倾向于提交市价单;3.随价差的增加,交易者更倾向于提交限价订单. 相似文献