期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	7篇
免费	0篇
国内免费	9篇

专业分类

数学

16篇

出版年

2010年	1篇
2008年	1篇
2002年	1篇
2001年	1篇
2000年	3篇
1999年	3篇
1998年	1篇
1997年	1篇
1996年	2篇
1995年	2篇

排序方式： 共有16条查询结果，搜索用时 18 毫秒

1 [2] 下一页 » 末页»

连续时间马尔可夫决策过程的折扣模型

郭先平戴永隆《数学学报》2002,45(1):171-182

本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型．放弃了传统的要求相应于每个策略的　Ｑ　－过程唯一等条件,而首次考虑相应每个策略的　Ｑ　－过程不一定唯一,　转移速率族也不一定保守,　费用率函数可能无界,　且允许行动空间非空任意的情形．　本文首次用"α－折扣费用最优不等式"更新了传统的α－折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性,　而且还进一步探讨了（　∈＞０　　）－最优平稳策略,具有单调性质的最优平稳策略,　以及（∈≥０）　－最优决策过程的存在性,　得到了一些有意义的新结果．　最后,　提供了一个迁移率受控的生灭系统例子,　它满足本文的所有条件,　而传统的假设（见文献［１－１４］）均不成立．相似文献

Constrained denumerable state non-stationary MDPs with expected total reward criterion

郭先平《应用数学学报(英文版)》2000,16(2):205-212

1.IntroductionandModelTheearlierliteratureaboutconstrainedMarkovdecisionprocesses(MDPs,forshort)canbefoundinDerman'sbook[1].Later,therehavebeenmanyachievementsinthisarea.Forexample,averagerewardMDPswithaconstrainthasbeendiscussedbyBeutleandRosslz],HordijkandKallenberg[3]jAltmanandSchwartz[4],etal.Inthecaseoffinitestatespace,discountedrewardcriterionMDPswithaconstrainthasbeentreatedbyKallenberg['landTanaka[6],etal.Whenstatespaceisdenumerable,suchproblemswerediscussedbySennott[71andAlt… 相似文献

非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性

郭先平《数学学报》2000,43(2):269-274

本文考虑的是可数状态空间任意行动空间非平稳ＭＤＰ平均模型,借鉴于ＦｅｉｎｂｅｒｇＥ．Ａ（１９９４）的思想,提出了比马氏策略和ＦｅｉｎｂｅｒｇＥ．Ａ的（ｆ,Ｂ）－生成策略和更为广泛的（Ｇ,Ｂ）－生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优（Ｇ,Ｂ）－生成策略的存在性．从而将ＦｅｉｎｂｅｒｇＥ．Ａ．（１９９４）的主要结果推广到非平衡可数状态空间情形．相似文献

非齐次马氏决策过程的齐次化

侯振挺郭先平《数学物理学报(A辑)》1997,17(4):432-438

该文考虑的是可数状态空间有限行动空间非齐次马氏决策过程的期望总报酬准则．与以往不同的是，我们是通过扩大状态空间的方法，将非齐次的马氏决策过程转化成齐次的马氏决策过程，于是非常简洁地得到了按传统的方法所得的主要结果．相似文献

非平稳MDP的期望平均准则

郭先平侯振挺《系统科学与数学》1999,19(1):123-128

本文考虑的是非平稳MDP的期望平均准则,在弱遍历条件下,用概率及鞅论的方法证明了。∈（0）－最优马氏策略的存在性,作为特例,较好地解决了Feinberg和Park在1994年提及的开问题．相似文献

非平稳MDP平均模型及其算法

郭先平《应用数学与计算数学学报》1995,9(2):53-59

本文考虑的是Ｈｉｎｄｅｒｅｒ提出的状态空间和行动空间均业般集的非平稳ＭＤＰ平均模型，利用扩大状态空间的方法，建立了此模型的最优方程，并给出了最优方程有解及蜞最优策略存在的条件，从最优方程出发，用概率的方法证明了最优策略的存在性，最后还提供了此模型的值迭代算法及其收敛性证明，从而推广了Ｓｍｉｔｈ。Ｌ．Ｌａｓｓｅｒｅ，Ｂ「３」及Ｌａｒｍａ＾「６」等的主要结果。相似文献

受约束的非平稳期望总报酬模型

郭先平《数理统计与应用概率》1996,11(4):326-331

本文考虑的是状态空间和行动空间均为一般集的受约束的平稳望总报酬模型，首先证明了随机策略类及最优策略类的紧性，然后，利用引入Ｌａｇｒａｎｇｅ乘子的技巧，在放弃通常的对期望费用的强约束假设下，用拓扑分析的方法，证明了约束最优策略的存在性，从而即推广了无约束的ＥｒｉｋｊＢａｌｄｅｒ（１９９２）的模型，又改进了ＬｉｎｌＳｅｎｎｏｔｔ的结果。相似文献

半马氏过程的一维分布及构造 总被引：1，自引：0，他引：1

唐荣郭先平刘再明《数学研究及应用》2008,28(3):617-627

本文求出了半马氏过程跳跃链的转移概率,给出了半马氏过程的逗留时间分布和一维分布,构造了半马氏过程$X(t,\omega)$,最后证明了半马氏过程的两种定义是等价的. 相似文献

非平稳MDP平均模型及其滚动式算法

郭先平刘建庸刘克《系统科学与数学》1999

相似文献

10.

非负费用折扣半马氏决策过程 总被引：1，自引：0，他引：1

黄永辉郭先平《数学学报》2010,53(3):503-514

本文考虑可数状态非负费用的折扣半马氏决策过程.首先在给定半马氏决策核和策略下构造一个连续时间半马氏决策过程,然后用最小非负解方法证明值函数满足最优方程和存在ε-最优平稳策略,并进一步给出最优策略的存在性条件及其一些性质.最后,给出了值迭代算法和一个数值算例. 相似文献

1 [2] 下一页 » 末页»