?马尔可夫决策过程
马尔可夫决策过程(MDP ,Markov Decision Processes) 是强 化学习的数学模型,因此,通常顺序型任务中的强化学 习问题可以通过马尔可夫决策过程建模 [5]...
?决策过程
其实这是 一个典型的马尔科夫决策过程(Markov decision process,MDP)。 马尔科夫决策过程(Markov decision process,MDP):Agent 可感知到其环 境的不同状态集合,并且有它可执行的动作集合。
?马尔科夫决策过程
在最后,我们对马尔科夫决策过程(MarKOv Decision Process)进行一个简单的介绍,这一过程是所有增强学习的基础,并且人们认为,一切增强学习的问题都可以转化为一个马尔科夫决策过程。
?Markov决策过程
...一个Agent(通常是一个机器人)选择菜个动作来改变状态,那么决策问题可以描述为一个Markov决策过程(Markov Decision Process,MDP)。MDP的优点在于可以采用决策论在行动不确定上进行量化决策。
马尔可夫决策过程 ; 部分可观测马尔可夫决策过程 ; 夫决策过程 ; 夫判决过程
半马尔可夫决策过程 ; 半Markov决策过程
部分可观测的马尔 ; 部分可观测马氏决策过程
英汉双解词典包含3185865条英汉词条,基本涵盖了全部常用单词的翻译及用法,是英语学习的有利工具。