首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.  相似文献   

2.
本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。  相似文献   

3.
令(?)_k(t)表示 k 阶多项式,对于一组首项系数为1的多项式{(?)_k(t),k≥0}在t=0,1,…,(N-1)处正交,即(?)本文证明了它们有递推关系(?)_(k+1)(t)=(?)(t)(?)_k(t)-a_(k-1)(?)_(k-1)(t),其中a_(k-1)=k~2(N~2-k~2)/4(4k~2-1).  相似文献   

4.
报酬无界的连续时间折扣马氏决策规划   总被引:2,自引:0,他引:2  
本文讨论了报酬函数夫界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划,文中引入了一为新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果。讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件。  相似文献   

5.
本文讨论了可数状态空间、可数决策空间、次随机转移率族、有界报酬函数的马氏决策规划(MDP)的折扣模型,给出了一个非ε-最优策略的检验准则.  相似文献   

6.
本文讨论Harrison意义下无界报酬折扣模型的最优策略的性质与结构,它们实际上是可数状态空间与行动集上和一般状态与行动空间上两种有界折扣模型的结果,在这种无界折扣模型上的实现.主要结果如下.定理1 若  相似文献   

7.
本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可地动集的连续时间折扣马氏决策规划进行研究,文中引入一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及春结构,除证明了在有界报酬和一致有界转移速率族下成立的主要结果外,本文还得到一些重要结论。  相似文献   

8.
董泽清 《数学学报》1978,21(2):135-150
我们涉及的折扣马氏决策规划(有些著者称为马氏决策过程),具有状态空问与每个状态可用的决策集均为可数无穷集、次随机转移律族、有界报酬函数.给出了一个求(ε_)最优平稳策略的加速收敛逐次逼近算法,比White的逐次逼近算法更快地收敛于(ε_)最优解,并配合有非最优策略的检验准则,使算法更加得益. 设β为折扣因子,一般说β(或(ε,β))_最优平稳策略,往往是非唯一的,甚至与平稳策略类包含的策略数一样多.我们自然希望在诸β(或(ε,β))_最优平稳策略中寻求方差齐次地(关于初始状态)达(ε_)最小的策略.我们证明了这种策略确实存在,并给出了获得这种策略的算法.  相似文献   

9.
本文讨论Lippman型无界报酬折扣半马氏决策规划ε最优策略的性质,在§2中证明了:若策略π~*=(π_0~*、π_1~*,…)是ε最优的,则对任何自然数n,策略(π_0~*,π_1~*,…,π_(n+)~*)为(1-β~n)~(-1)ε最优;若策略π~*=(f_0,f_1,…,f_n,π_(n+1),…)是ε最优的,则策略f_n~∞为某ε_n最优。在§3中讨论策略的组合与分解,在§4中给出了一个策略π~*为最优的充要条件和为ε最优的充分条件。  相似文献   

10.
令R是特征为2,且含有非平凡幂等元与单位元的素环.假设f:R→R是满射,k=2,3.证明了,f满足[f(x),f(y)]_k=[x,y]_k=[[x,y]_(k-1),y]对所有元x,y∈R成立当且仅当存在映射μ:R→C和元λ∈C使得f(x)=λx+μ(x)对所有元x∈R成立,其中λ~(k+1)=1,C是R的扩展中心.  相似文献   

11.
董泽清  刘克 《中国科学A辑》1985,28(11):975-985
本文研究Lippmann型无界报酬折扣半马氏决策规划(简记为URSMDP)最优策略的结构。我们证明了:任给一策略,若它是a折扣最优的,则随机平稳策略,对同一a也是折扣最优的;对任给的整数n≥1,我们也给出了(在适当历史下)也是a折扣最优的充分条件;任一随机a折扣最优平稳策略必可分解为若干个决定性平稳最优策略(对同一a)的凸组合。从而较完满地解决了该模型最优策略的结构问题。  相似文献   

12.
一类椭球等高矩阵分布的矩   总被引:1,自引:0,他引:1  
设X是m×n随机矩阵,n≥m,S=XX’,O_m是所有m×m正交阵的集合。如果对任意的Γ∈O_m,ΓX(?)X 则对任意整数k E(S~k)=c~kI_m cov(vec S~k)=α_kI_(m~2)+β_kK_(m~2)+γ_kQ_(m~2)其中 c_k、α_k、β_k、和γ_k是某些常数; I_l,l×l单位阵; K_(m~2)=sum from ij=1 to m(H_(ij)(×)H′_(ij)); Q_(m~2)=sum from ij=1 to m(H_(ij)(×)H_(ij));而 H_(ij)表示这样的 m×m矩阵,除了h_(ij)=1外,其它元素为零,(×)表示 Kronecker积。另外,本文也求出了一些特殊的α_k,β_k,γ_k和c_k的值。  相似文献   

13.
1.引言 连续时间首达目标模型有广泛的实际背景,它可应用于可靠性系统的优化问题,排队系统的优化控制问题,自动控制中的决策优化问题,等等。我们准备研究下列几个模型: Ⅰ,折扣矩最优模型; Ⅱ,考虑工作寿命的最优模型; Ⅲ,首达时间依分布最优模型。  相似文献   

14.
在正实轴上考虑函数系,其中Reμ_n>0,n=1,2,…,且用S_k表示μ_k在{μ_1,μ_2,…,μ_k}中出现的次数,P_k表示μ_k在序列{U_n}_1~∞中出现的次数,已知 Mntz-Szasz定理:要使函数系在空间L~2[0, ∞)中完备,即对任意f(x)∈L~2《0, ∞),对任给ε>0,存在P_n(x)=sum from k=1 to n(c_ke~(-μ_ke~x)x~(S_(k-1)))使得  相似文献   

15.
在文献[1]—[3]中在各自的条件下,讨论过非时齐折扣马氏决策模型及其ε(≥0)最优策略存在的条件.在文献[4],文献[5]中,在状态和行动集都是可数的条件下,讨论了具有绝对平均相对有界的无界报酬的时齐折扣马氏决策模型.本文在状态集仍为可数,行动集为任意的条件下,建立与[4]相应的非时齐的折扣马氏决策模型;给出模型的有限阶段逼近和建立最优方程;证明了ε(>0)最优马氏策略的存在性和行动集为有限集时最优  相似文献   

16.
对折扣目标马氏决策规划,Derman 讨论了状态空间 S 可列、措施集 A_i(i∈S)均有限且报酬 r 有界时的最优策略问题.Harrison 提出了 S、A_i(i∈S)均可列的一种r 无界模型.文献[3]改进了 Harrison 条件提出报酬函数绝对平均相对有界模型,它是指存在一个常数 d>0和{r(i)>0,i∈S},r(i)有限,对一切 l∈S,a∈A_l 均有:i)|r(l,a)|≤r(l)<+∞;ii)∑q(j|l,a)r(j)≤r(l)+d.指出对于这个模型,当 S、  相似文献   

17.
研究了高阶线性微分方程f~(k)+A_(k-1)(z)f~(k-1)+…+A_1(z)f′+A_0(z)f=0的非零解f,及其一阶、二阶导数,f~(i)(i=1,2)的不动点性质,这里A_j(z)(j=0,1,…k-1)为亚纯函数,得到了若δ(∞,A_0)>0,且满足max{i(A1),i(A2),…,i(A_(k-1))}相似文献   

18.
设 k(≥2)个正态总体 π_1,…,π_k 有相同的方差σ~2和未知均值μ_1,…,μ_k,记μ_[1]≤…≤μ_[k]是{μ_i,1≤i≤k}的排序,我们称具有最大均值μ[k]的总体为最优总体.如何从这 k 个总体中选择出最优总体,就是我们要研究的选择问题.上述选择问题最初由 Bechhofer 提出,他对这个问题提出了正确选择(CorrectSelection)概率要求:  相似文献   

19.
解线性方程组的选代法的停机准则和误差界   总被引:1,自引:0,他引:1  
宋永忠 《计算数学》1992,14(1):27-32
在用迭代格式x~(k+1)=Gx~k+g(k=0,1,…)求解n阶线性方程组Ax=f的过程中,由于精确解α是未知的,因而停机准则通常用后验误差δ_k=x~k=x~(k-1)给出.给出较好的停机准则,并且通过δ_k估计迭代法的误差ε_k=α-x~k的界,是一个研究课题.由直接计算得ε_k=(1-G)~(-1)Gδ_k,从而  相似文献   

20.
施咸亮 《数学学报》1980,23(6):823-835
<正> §1.总说§1.1 设 f(x)∈C_(2π),f(x)~a_0/2+sum form n=1 to ∞ a_ncosnx+b_nsin nx≡sum form n=0 to ∞ A_n(x)记 S_n(f,x)=sum form v=0 to n A_v(x).称σ_(n,p)(f,x)=1/p+1 sum form v=n-p to n S_v(f,x)为 f(x)的瓦累-布然平均.记△_u~kf(x)=sum form v=0 to k (-1)~v(?)f[x+(k-2v)u].称函数ω_k(f,t)=(?)|△~u_kf(x)|为 f(x)的 k 阶连续模.简记ω(f,t)=ω_1(f,t).假如 f(x)的共轭函数  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号