强化学习简介#
本文并不完备,这里仅记录几个关键点。
1、基础概念#
奖励(reward):智能体和环境进行交互时,每一次交互都会产生一个奖励(reward),一般使用 r 表示;
回报(reward):将每一次交互的奖励进行累加,得到整理的回报(reward),一般使用 R 表示;
价值(value):即使智能体的策略和环境不做改变,多次实验最终得到的回报也可能不同,所以更关注回报的期望,将其命名为价值(value),一般使用 V 表示;
占用度量(occupancy measure):归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互过程中,采样一个具体状态对的概率分布,一般使用 p(s, a) 表示,这里的 s 是单词 state 的首字母,a 是单词 action 的首字母;
这里占用度量的符号不一定对,看到后面时再回来修改。
占用度量的性质:给定两个策略与一个动态环境交互得到的占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。当策略发生了改变时,那么占用度量也会发生改变。
2、对比有监督学习与强化学习#
在有监督学习中,输入数据是 x,标签是 y,模型要学习的分布是 p(y|x);
在强化学习中,输入数据是一个环境与一个策略的状态对 (s,a),优化目标是最大化奖励的期望。由占用度量的性质可知,当策略改变时,占用度量也会改变。也就是说,在强化学习过程中,策略在被优化的过程中不断改变,相应的,占用度量也在改变,所以模型的输入数据 (s, a) 的分布也在不断变化。这正是强化学习的一大难点。
下面看一下形式化的有监督学习和强化学习的学习目标。
有监督学习的学习目标:
强化学习的学习目标:
在上述的两个公式中,有监督学习公式中的 "数据分布" 是不会变化的,而强化学习公式中的 "策略的占用度量" 是在学习过程中不断变化的。