?学习算法
Narendra-Shapiro巩固再励学习算法(reinforcement learning algorithm)if N( t) = 0 (奖励)then p i(t + 1) = p i(t) + C(t)<1 - p i(t) > U(t) = U i p i(t) - C(t)p i(t)U(...
Sarsa增强学习算法
线性再励学习算法
多Agent强化学习算法
英汉双解词典包含3185865条英汉词条,基本涵盖了全部常用单词的翻译及用法,是英语学习的有利工具。