在传统的强化学习研究中,智能体被置于受限的环境中,就像在迷宫里行走,智能体的每个动作都有物理或规则上的约束。即便如此,智能体仍保留了一定程度的自由,因为解决谜题或游戏的方法往往不止一种。然而,每一步行动都必须以最终获胜和获得奖励为目标进行计算。随着时 ...