MDP: Markov Decision Processes

Policy $\pi$: choice of action for each state
Discounted utility: sum of (discounted) rewards

$U([r_0, r_1, r_2, …]) = \sum_{i=0}^{\infty} \gamma^{i}r_i = r_0 + \gamma r_1 + \gamma^2 r_2 + …$, where $0<\gamma<1$

the value (utility) of a state $s$

$V^*(s)$: expected utility starting in $s$ and acting optimally
the value (utility) of a q-state $(s, a)$

$Q^*(s,a)$: expected utility starting out having taken action $a$ from state $s$ and (thereafter) acting optimally
the optimal policy

$\pi^*(s)$: optimal action from state $s$

Q:
\[Q^\ast(s, a) = \sum_{s'} T(s, a, s')[R(s, a, s')+\gamma V^\ast(s')]\]
V:
\[V^\ast(s) = \max_a Q^*(s, a) = \max_a \sum_{s'}T(s, a, s')[R(s, a, s')+\gamma V^\ast(s')]\]

Repeat until convergence.

Complexity of each iteration: $O(\mid S\mid ^2 \mid A \mid)$

\[\pi^\ast(s) = \arg \, \max_a \sum_{s'}T(s, a, s')[R(s, a, s')+\gamma V^\ast(s')] = \arg \max_a Q^\ast(s, a)\]

Easier to extract from q-values than values.

Steps:

Policy evaluation: calculate utilities for some fixed policy (not optimal utilities!) until convergence.
\[V_{k+1}^{\pi_i}(s) \leftarrow \sum_{s'}T(s, \pi_i(s), s')[R(s, \pi_i(s), s')+\gamma V^{\pi_i}_k(s')]\]
Policy improvement: update policy using one-step look-ahead with resulting converged (but not optimal!) utilities as future values.
\[\pi_{i+1}(s) = arg\,max_a \sum_{s'} T(s, a, s') [R(s, a, s') + \gamma V^{\pi_i}(s')]\]

Repeat steps until policy converges.

MDP